抓住網(wǎng)頁(yè)。獨(dú)立于內(nèi)閣的搜索引擎有自己的網(wǎng)絡(luò)爬蟲。爬蟲蜘蛛跟蹤頁(yè)面中的超鏈接分析以獲取更多頁(yè)面。捕獲的網(wǎng)頁(yè)稱為網(wǎng)頁(yè)快照。
毫無疑問,蜘蛛抓取網(wǎng)頁(yè)有一定的規(guī)則。這是他的抓捕策略。
即深度優(yōu)先和寬度優(yōu)先的組合。在使用這兩種策略時(shí),我們應(yīng)該參考這個(gè)環(huán)節(jié)的權(quán)重。如果此鏈接的權(quán)重不差,請(qǐng)先獲取深度;如果權(quán)重低,請(qǐng)先獲取寬度。
這很容易理解。例如,昨天的搜索引擎蜘蛛來抓取我們的網(wǎng)頁(yè),今天我們向這個(gè)網(wǎng)頁(yè)添加了新內(nèi)容,所以搜索引擎蜘蛛今天又來抓取它。目前,大多數(shù)搜索引擎使用的是單一重訪和全部重訪相結(jié)合的方式。例如,我們有一個(gè)每月不更新一次的頁(yè)面。所以搜索引擎蜘蛛就這樣來找你,第二天就這樣,第三天搜索引擎蜘蛛就不會(huì)來了。它將定期更新,如一周,或直到下次全面重訪。這就是為什么有些網(wǎng)站的內(nèi)容很快,而另一些則很慢。
處理網(wǎng)頁(yè)。搜索引擎抓取網(wǎng)頁(yè)后,需要做大量的預(yù)處理工作才能提供檢索服務(wù)。其中,重要的是提取關(guān)鍵詞,建立索引庫(kù)和索引。此外,它還包括刪除重復(fù)網(wǎng)頁(yè)、分段(中文)、判斷網(wǎng)頁(yè)類型、超鏈接分析、計(jì)算網(wǎng)頁(yè)的重要性/豐富性等。處理網(wǎng)頁(yè)分為以下幾個(gè)部分:
簡(jiǎn)而言之,就是刪除所有的HTML代碼并提取內(nèi)容。
在網(wǎng)頁(yè)結(jié)構(gòu)中,HTML代碼被刪除,文本被留下,所以去噪就是留下網(wǎng)頁(yè)的主題內(nèi)容。
搜索引擎蜘蛛在前一步中,提取文本內(nèi)容后,將我們網(wǎng)站的內(nèi)容分成若干個(gè)單詞,然后排列,存儲(chǔ)在索引庫(kù)中。它還計(jì)算單詞出現(xiàn)在頁(yè)面上的次數(shù)。關(guān)鍵字堆棧就是利用這個(gè)原理來優(yōu)化網(wǎng)站。有必要指出這種做法。
在此步驟中,搜索引擎將查詢此頁(yè)上有多少反向鏈接,導(dǎo)出鏈接中有多少內(nèi)部鏈接,然后給出此頁(yè)的權(quán)重。
提供檢索服務(wù)。用戶輸入關(guān)鍵字進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中查找與關(guān)鍵字匹配的頁(yè)面。為了方便用戶,除了頁(yè)面標(biāo)題和URL外,還提供了來自頁(yè)面的摘要等信息。
根據(jù)以上搜索引擎的特點(diǎn),我們可以總結(jié)如下:
發(fā)送后共享更多信息或發(fā)送更多鏈接??梢詭椭愕木W(wǎng)站盡快帶來搜索引擎蜘蛛的訪問。你也可以通過內(nèi)鏈的方式增加搜索引擎蜘蛛停留在網(wǎng)站上的時(shí)間,從而獲得更好的排名。
每天發(fā)布新信息或更新網(wǎng)站內(nèi)容,這樣蜘蛛就可以訪問你的信息并每天抓取它。
發(fā)布高質(zhì)量信息。搜索引擎蜘蛛會(huì)根據(jù)用戶在你發(fā)布的信息中停留的時(shí)間長(zhǎng)短來判斷信息的價(jià)值。如果時(shí)間長(zhǎng),說明你的網(wǎng)站對(duì)用戶有意義,那么搜索引擎會(huì)很快收集并給出一個(gè)很好的排名。