從百度搜索引擎優(yōu)化的角度來看,如果分詞技術(shù)能夠得到恰當(dāng)?shù)倪\用,它可以使你的網(wǎng)站優(yōu)化達到一個更高的水平。事實上,分詞的原理非常簡單,即當(dāng)用戶輸入查詢關(guān)鍵字時,可以將相關(guān)的準確輸出結(jié)果匹配給用戶。同時,也是百度追求的用戶友好體驗,超級排名系統(tǒng)編譯發(fā)布。
如果能熟練掌握百度分詞技術(shù),就可以實現(xiàn)網(wǎng)站關(guān)鍵詞的定位,并列出長尾關(guān)鍵詞,從而帶動網(wǎng)站更好的優(yōu)化,吸引更多的流量。百度分詞技術(shù)之所以比谷歌分詞技術(shù)更先進,是因為百度擁有龐大的詞庫,包括人名、地名、企業(yè)名等,同時有正向匹配和反向匹配,以較短的路徑滿足用戶的搜索需求。
百度分詞主要是為了滿足搜索引擎對詞義、詞數(shù)和詞頻的把握
1、 字符串匹配分詞方法
分為正向匹配法、反向匹配法、短路徑分詞法等。
正匹配法主要是結(jié)合我們長期以來的寫作方式,將一個詞或一個句子從左到右進行劃分。例如,“一個學(xué)生正在教室里學(xué)習(xí)”。這句話的正匹配法是學(xué)生、存在、課堂、在課堂上學(xué)習(xí),主要采用從左到右的匹配法。
反向匹配法與正向匹配法正好相反。例如,“一個學(xué)生在課堂上學(xué)習(xí)”主要采用逆向匹配的方法,從右到左區(qū)分學(xué)生、存在、課堂、學(xué)習(xí)。
2、 詞義切分方法
詞義切分的方法是利用機器語言判斷分詞的方式,對句法、語義進行分析,借助語法信息和語義信息做出判斷來處理歧義現(xiàn)象。目前,這種方法在百度還不成熟。
3、 統(tǒng)計分析法
統(tǒng)計分析主要是在人工標(biāo)注和統(tǒng)計特征下進行的。對于中國人來說,這個模型是建立起來的。在分詞階段,通過該模型計算分詞的概率,并將概率結(jié)果作為最后一塊芯片。比較常見的序列模型是HMM和CRF。
它的優(yōu)點是可以處理歧義和不能登錄詞,而且效果優(yōu)于字符串匹配。
缺點是可能需要大量的人工標(biāo)注,速度會比較慢。
由于相鄰詞在同一時間出現(xiàn)的頻率越高,形成一個詞的可能性就越大,因此詞與詞相鄰部分的概率可以很好地反映詞的可信度。
我們還可以通過統(tǒng)計語料庫中相鄰詞的組合頻率來估計它們的共同信息,從而定義這些信息并計算相鄰詞出現(xiàn)的概率。
在做百度分詞分析的過程中,無論是標(biāo)題分詞,還是首頁相關(guān)關(guān)鍵字設(shè)置,我們都不能隨意使用百度搜索的任何關(guān)鍵字,因為你會發(fā)現(xiàn)首頁標(biāo)題可以用百度搜索引擎刪除相關(guān)關(guān)鍵字,排名***。