搜索引擎的工作過(guò)程非常復(fù)雜,大致可以分為三個(gè)階段
一、網(wǎng)頁(yè)收集:搜索引擎蜘蛛通過(guò)鏈接進(jìn)行爬行和實(shí)時(shí)搜索,并將捕獲的網(wǎng)頁(yè)存儲(chǔ)在原始數(shù)據(jù)庫(kù)中
二、預(yù)處理:搜索引擎蜘蛛捕捉到的頁(yè)面不能被用戶直接查詢和排序,因此需要進(jìn)行預(yù)處理
三、檢索服務(wù):用戶輸入查詢項(xiàng)后,排名程序調(diào)用索引數(shù)據(jù)中的數(shù)據(jù),按排序順序向用戶顯示與用戶搜索項(xiàng)相關(guān)的頁(yè)面
搜索引擎通過(guò)蜘蛛程序抓取和收集網(wǎng)頁(yè)。網(wǎng)頁(yè)收集是搜索引擎工作的步。了解由手引起的網(wǎng)頁(yè)抓取機(jī)制,便于蜘蛛抓取更多的網(wǎng)頁(yè),使網(wǎng)站有更好的排名
蜘蛛:網(wǎng)絡(luò)爬蟲(chóng),也稱為網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機(jī)器人,是根據(jù)一定規(guī)則自動(dòng)抓取網(wǎng)頁(yè)的程序和腳本
蜘蛛的工作原理:對(duì)于Internet中的網(wǎng)站,如果沒(méi)有鏈接的篩選設(shè)置,蜘蛛可以通過(guò)鏈接在網(wǎng)站或網(wǎng)站之間爬行。由于網(wǎng)絡(luò)中網(wǎng)頁(yè)的鏈接結(jié)構(gòu)異常,蜘蛛需要采取一定的爬行策略來(lái)爬行更多的網(wǎng)頁(yè)
有兩種簡(jiǎn)單的爬行策略:深度優(yōu)先和廣度優(yōu)先。
深度優(yōu)先:蜘蛛從起始頁(yè)開(kāi)始,一個(gè)接一個(gè)地跟蹤和吸收鏈接,從這一行出來(lái)后,再到下一個(gè)起始頁(yè)跟蹤鏈接。
如圖1所示:
在深度優(yōu)先模式下,爬行器從第f頁(yè)爬行到第A1、A2和A3頁(yè)。爬網(wǎng)到第A3頁(yè)后,沒(méi)有其他要爬網(wǎng)的鏈接。它將返回到F頁(yè),并沿著頁(yè)面上的另一個(gè)鏈接爬行到B1、B2和B3頁(yè)。在“深度優(yōu)先”策略中,蜘蛛爬行,直到它不能再向前移動(dòng),然后返回另一條路徑。
廣度優(yōu)先:這意味著蜘蛛將抓取起始網(wǎng)頁(yè)鏈接中的所有鏈接,然后選擇其中一個(gè)鏈接頁(yè)面,并繼續(xù)抓取此頁(yè)面中的所有頁(yè)面。這是一種常見(jiàn)的方法,因?yàn)檫@種方法可以讓蜘蛛網(wǎng)并行處理,提高其抓取速度。
如圖2所示:
這是一個(gè)有限范圍的模型圖。蜘蛛沿著鏈接從f頁(yè)爬行到A1、B1和C1頁(yè),直到f頁(yè)上的所有鏈接都已爬行,然后從f頁(yè)上找到的下一個(gè)鏈接A1爬行到A2、A3和A4頁(yè)。
深度優(yōu)先和官渡優(yōu)先通常是混合使用的。這樣,你不僅可以照顧盡可能多的網(wǎng)站,還可以照顧一些網(wǎng)站的內(nèi)部頁(yè)面。勇士還將考慮頁(yè)面權(quán)重、網(wǎng)站規(guī)模、外鏈、更新等因素。此外,為了提高爬行和抓取的速度,搜索引擎使用多個(gè)蜘蛛同時(shí)爬行。根據(jù)這一原則,為了使網(wǎng)站中的所有頁(yè)面按順序爬行,必須合理設(shè)置網(wǎng)站中的鏈接(內(nèi)鏈的結(jié)構(gòu)和布局)。