深圳大數(shù)據(jù)開發(fā)培訓(xùn)課程哪家好?千鋒教育錯不了!
深圳大數(shù)據(jù)開發(fā)培訓(xùn)課程哪家好?千鋒教育錯不了!
深圳大數(shù)據(jù)開發(fā)培訓(xùn)課程哪家好?千鋒教育錯不了!
小白、沒有社會關(guān)系如何入行?好在有大數(shù)據(jù)開發(fā)培訓(xùn)機(jī)構(gòu)。在經(jīng)過精心對比之后,選擇了千鋒的大數(shù)據(jù)+人工智能這門課程進(jìn)行培訓(xùn)。我看重的是大數(shù)據(jù)高端班的課程設(shè)置,標(biāo)準(zhǔn)化AI工程流程,如:加載數(shù)據(jù)集、分割數(shù)據(jù)集、選擇建立模型、訓(xùn)練模型、測試模型和應(yīng)用模型,從項目立項分析、確定分析目標(biāo)到項目分析設(shè)計。項目實戰(zhàn)也覆蓋西二旗、中關(guān)村、亦莊和朝陽的大數(shù)據(jù)商業(yè)實戰(zhàn),讓我離夢想進(jìn)一步,再進(jìn)一步!
下面是我的技術(shù)學(xué)習(xí)筆記,記錄一下自己的學(xué)習(xí)大數(shù)據(jù)之路!
倒排索引:
關(guān)鍵字存在于一些文章或者頁面中,順序索引為這些關(guān)鍵字在某一文章中的數(shù)量和位置。
倒排索引就是一關(guān)鍵字為單位,以關(guān)鍵字為主,將所有包含這些關(guān)鍵字的文章或者頁面與該關(guān)鍵字關(guān)聯(lián),作為該關(guān)鍵字的索引。稱為倒排。
倒排索引常見思路:
比如統(tǒng)計某個關(guān)鍵字在多個網(wǎng)頁中存在的數(shù)量和存在的文件。
在map中將關(guān)鍵字所在文件的文件名稱和關(guān)鍵字拼接組成key,value直接使用1,使用combiner,做聚合操作,key值不變,將key_filename進(jìn)行組合操作,計算出這樣的組合key總數(shù)量,然后發(fā)給reduce。
對于組合鍵如何發(fā)送給reduce,這里需要自定義分分區(qū)類。在分區(qū)類中不要使用默認(rèn)的key_filename真?zhèn)字符串hash,而是只提取key做hash.這樣相同關(guān)鍵字就會被發(fā)送到同一個reduce。
在reduce方,鍵會以key_filename方式出現(xiàn),但是這個key_filename包含了來自所有map的。在reduce函數(shù)中聚合,然后將key,filename,counter拆分出來根據(jù)key輸出到不同的文件中。后面可能會有相同關(guān)鍵字但是來自于不同網(wǎng)頁這樣的組合關(guān)鍵字,但是真實關(guān)鍵字一定會被發(fā)送到同一個reduce,所有不會存在多個reduce同時寫同一個結(jié)果文件的情況。后面相同真實關(guān)鍵字到來后,即使與之前的相同真實關(guān)鍵字不連續(xù),也會寫到相同的結(jié)果文件中。
聯(lián)系千鋒
座機(jī):0755-23015275-801 小千老師
硅谷校區(qū)地址:深圳市寶安區(qū)寶安大道5010號深圳西部硅谷B座A區(qū)605
大學(xué)城校區(qū)地址:深圳市南山區(qū)留仙大道1201號大學(xué)城創(chuàng)客小鎮(zhèn)16棟3樓