網(wǎng)站質(zhì)量和網(wǎng)頁(yè)質(zhì)量是SEO經(jīng)常提到的SEO術(shù)語(yǔ)。但具體來(lái)說(shuō),搜索引擎如何判斷網(wǎng)頁(yè)和網(wǎng)站的質(zhì)量,我相信大多數(shù)SEO并不理解。主要原因是這些算法是搜索引擎公司的核心機(jī)密,而搜索引擎公司很少披露任何關(guān)于這些算法的線索。然而,通過(guò)對(duì)搜索引擎原理和搜索引擎主流網(wǎng)頁(yè)質(zhì)量分析技術(shù)的研究。
基于網(wǎng)頁(yè)鏈接關(guān)系的分析方法,可以被更多網(wǎng)頁(yè)鏈接的流行網(wǎng)頁(yè)不僅是一個(gè)更重要的網(wǎng)頁(yè),而且是一個(gè)高質(zhì)量的網(wǎng)頁(yè)。事實(shí)證明,這種方法更為成功。例如,谷歌的PageRank方法使用這種方式來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行加權(quán)。
這種方法之所以有效,主要是因?yàn)榫W(wǎng)絡(luò)環(huán)境的特殊性??梢哉J(rèn)為,網(wǎng)絡(luò)上沒(méi)有全面的質(zhì)量控制,因此網(wǎng)頁(yè)不具備與出版環(huán)境類似的權(quán)威性評(píng)價(jià)特征(在出版環(huán)境中,相關(guān)文獻(xiàn)可以通過(guò)同行評(píng)審等方式被他人認(rèn)可,從而表現(xiàn)出高質(zhì)量),因此,網(wǎng)絡(luò)用戶需要使用其他方法來(lái)判斷網(wǎng)站的專業(yè)能力和可信度。其中,比較常用的方法是鏈接到網(wǎng)頁(yè)的人數(shù)和鏈接網(wǎng)頁(yè)的質(zhì)量。顯然,鏈接到網(wǎng)頁(yè)的人越多或鏈接網(wǎng)頁(yè)的質(zhì)量越高,就可以反映當(dāng)前網(wǎng)頁(yè)的質(zhì)量越高。例如,由大學(xué)、圖書(shū)館或有價(jià)值的網(wǎng)站鏈接的網(wǎng)站通常是一些高質(zhì)量的網(wǎng)站。同時(shí),每個(gè)網(wǎng)頁(yè)也愿意與其他網(wǎng)頁(yè)建立鏈接關(guān)系,因?yàn)樵谌狈φw網(wǎng)頁(yè)質(zhì)量控制的情況下,網(wǎng)頁(yè)可以通過(guò)建立指向高質(zhì)量網(wǎng)頁(yè)的鏈接來(lái)顯示自己的內(nèi)容。另一方面,指向源網(wǎng)頁(yè)的鏈接希望獲得用戶對(duì)當(dāng)前網(wǎng)頁(yè)的認(rèn)可,這在一定程度上可以解釋網(wǎng)頁(yè)超鏈接在web環(huán)境中非常流行的原因。
然而,雖然該方法易于實(shí)現(xiàn),但許多搜索引擎系統(tǒng)都能提供基于網(wǎng)頁(yè)超鏈接關(guān)系的分析技術(shù),并將其應(yīng)用于網(wǎng)頁(yè)推薦服務(wù),但也存在許多問(wèn)題。例如,以上評(píng)價(jià)標(biāo)準(zhǔn)都是基于一個(gè)基本前提,即具有大量鏈人的網(wǎng)頁(yè),即流行網(wǎng)頁(yè)必須是高質(zhì)量的網(wǎng)頁(yè)。但是,也存在許多問(wèn)題。例如,那些在搜索結(jié)果中排名較低的不受歡迎的網(wǎng)頁(yè)不太可能被用戶訪問(wèn);相反,那些非常受歡迎的網(wǎng)頁(yè)更容易被更多的用戶訪問(wèn),因?yàn)樗鼈儞碛懈嗟逆溔耍琶哺?,因此它們變得越?lái)越受歡迎,并且能夠表現(xiàn)出更高的質(zhì)量狀態(tài),從而導(dǎo)致所謂的“富起來(lái)富起來(lái)”現(xiàn)象。這顯然是不公平的,特別是對(duì)于一些高質(zhì)量的現(xiàn)有網(wǎng)頁(yè)和一些新的高質(zhì)量網(wǎng)頁(yè),這些網(wǎng)頁(yè)不太可能吸引太多的鏈接用戶。
此方法使用網(wǎng)站流量來(lái)評(píng)估網(wǎng)站的網(wǎng)頁(yè)質(zhì)量,例如Alexa。它通過(guò)網(wǎng)站流量之間的比較關(guān)系對(duì)網(wǎng)站進(jìn)行排名。同時(shí),它也指鏈節(jié)點(diǎn)數(shù)和用戶評(píng)論數(shù)。然而,熱門(mén)主題的網(wǎng)站通常有更多的流量,因此Alexa不提供不同主題的網(wǎng)站排名,這仍然是不完整的。一些學(xué)者也提出了基于不同主題的網(wǎng)站流量排名方法,但主題范圍相對(duì)較廣。
由于上述方法的不足,一些學(xué)者提出,網(wǎng)頁(yè)質(zhì)量可以表示為隨機(jī)用戶尋找特定信息愿意訪問(wèn)該網(wǎng)站網(wǎng)頁(yè)的概率,如主題實(shí)驗(yàn)系統(tǒng)。與基于網(wǎng)頁(yè)鏈接關(guān)系的評(píng)價(jià)指標(biāo)不同,該指標(biāo)基于一個(gè)假設(shè),即如果用戶在瀏覽后短時(shí)間內(nèi)建立了一個(gè)指向某個(gè)網(wǎng)頁(yè)的超鏈接,則可以認(rèn)為該網(wǎng)頁(yè)質(zhì)量高,因此所有網(wǎng)頁(yè)都可以向所有用戶顯示,通過(guò)了解用戶是否在短時(shí)間內(nèi)建立了與他們的超鏈接,我們可以計(jì)算用戶對(duì)他們的愛(ài),并獲得網(wǎng)頁(yè)的質(zhì)量。顯然,盡管用戶構(gòu)建網(wǎng)頁(yè)超鏈接的行為不一定反映網(wǎng)頁(yè)的質(zhì)量,但如果面向大多數(shù)用戶,此統(tǒng)計(jì)摘要信息將客觀地指示網(wǎng)頁(yè)的質(zhì)量。因此,這種定義方法可以稱為基于用戶訪問(wèn)模型的方法。
由于網(wǎng)頁(yè)質(zhì)量也與網(wǎng)頁(yè)本身的普及程度有關(guān),傳統(tǒng)的基于網(wǎng)頁(yè)鏈接關(guān)系的評(píng)價(jià)方法也間接地考慮了網(wǎng)頁(yè)質(zhì)量。網(wǎng)頁(yè)質(zhì)量是通過(guò)網(wǎng)頁(yè)的受歡迎程度來(lái)衡量的,網(wǎng)頁(yè)的受歡迎程度可以通過(guò)喜歡該網(wǎng)頁(yè)的用戶數(shù)量來(lái)確定,喜歡該網(wǎng)頁(yè)的用戶數(shù)量可以通過(guò)網(wǎng)頁(yè)中的鏈接數(shù)量來(lái)間接衡量,因此,鏈接的數(shù)量與網(wǎng)頁(yè)質(zhì)量指數(shù)成正比。然而,它為所有網(wǎng)頁(yè)提供了相同的面向用戶的機(jī)會(huì),因此新網(wǎng)頁(yè)不可能比原來(lái)流行的網(wǎng)頁(yè)獲得更多的鏈人。從這個(gè)角度來(lái)看,傳統(tǒng)的基于網(wǎng)頁(yè)鏈接關(guān)系的評(píng)價(jià)方法仍然沒(méi)有充分考慮網(wǎng)頁(yè)的質(zhì)量。它只利用網(wǎng)頁(yè)在某一時(shí)間點(diǎn)上的鏈接關(guān)系進(jìn)行判斷。在基于用戶訪問(wèn)模型的網(wǎng)頁(yè)質(zhì)量定義中,關(guān)注的是在短時(shí)間內(nèi)建立鏈接的特性,因此,必須測(cè)量動(dòng)態(tài)時(shí)間間隔內(nèi)網(wǎng)頁(yè)鏈接關(guān)系的變化。換句話說(shuō),網(wǎng)頁(yè)流行度可以定義為用戶在某個(gè)時(shí)間點(diǎn)對(duì)網(wǎng)頁(yè)的喜愛(ài)程度,而網(wǎng)頁(yè)質(zhì)量則定義為用戶在單位時(shí)間內(nèi)找到網(wǎng)頁(yè)時(shí)對(duì)網(wǎng)頁(yè)的喜愛(ài)程度。
顯然,網(wǎng)頁(yè)質(zhì)量和網(wǎng)頁(yè)流行度之間存在正相關(guān)關(guān)系,但有一些因素會(huì)影響網(wǎng)頁(yè)被訪問(wèn)的概率。網(wǎng)頁(yè)質(zhì)量可以看作是網(wǎng)頁(yè)的客觀指標(biāo),不會(huì)隨時(shí)間而改變。因此,在確定網(wǎng)頁(yè)質(zhì)量時(shí),網(wǎng)頁(yè)的受歡迎程度主要取決于網(wǎng)頁(yè)被訪問(wèn)的概率。
當(dāng)然,這個(gè)指標(biāo)的設(shè)計(jì)不能說(shuō)沒(méi)有問(wèn)題。它會(huì)產(chǎn)生話題偏見(jiàn)。例如,話題的流行度和質(zhì)量。一般來(lái)說(shuō),如果一個(gè)網(wǎng)頁(yè)的主題是一個(gè)更受歡迎的主題,那么這個(gè)網(wǎng)頁(yè)的質(zhì)量相對(duì)比那些只談?wù)撨^(guò)時(shí)主題的網(wǎng)頁(yè)要高。然而,從網(wǎng)頁(yè)質(zhì)量的角度來(lái)看,這似乎是正常的。畢竟,衡量網(wǎng)頁(yè)真實(shí)質(zhì)量的方法是考慮網(wǎng)頁(yè)主題的內(nèi)容。同時(shí),搜索引擎通常將要排序的頁(yè)面限制在返回結(jié)果的小范圍內(nèi)。作為同一用戶查詢的返回結(jié)果,這些頁(yè)面在語(yǔ)義上基本相近,因此這些頁(yè)面質(zhì)量的相對(duì)大小仍然具有可比性。因此,在網(wǎng)絡(luò)信息搜索環(huán)境中,這種直接衡量網(wǎng)頁(yè)質(zhì)量的指標(biāo)更為適用。