對于百度和谷歌來說,搜索引擎的工作原理幾乎是一樣的。因為谷歌在中國被禁,國內(nèi)搜索一般都是百度。搜索引擎的工作原理非常簡單。它只有四個部分,如下所示:什么是搜索引擎蜘蛛和爬蟲?
搜索引擎蜘蛛實際上是百度用來瀏覽用戶在互聯(lián)網(wǎng)上發(fā)布的信息,然后將信息抓取到搜索引擎服務(wù)器上,然后建立索引庫。我們可以把搜索引擎蜘蛛當作一個用戶,然后這個用戶會訪問我們的網(wǎng)站,并認為我們更好的內(nèi)容將保存在自己的電腦上。
查找鏈接-下載此頁-添加到臨時庫-提取頁中的鏈接-再次下載頁-循環(huán)
首先,搜索引擎蜘蛛需要找到鏈接。首先,百度蜘蛛是自己發(fā)現(xiàn)的。其次,他們通過百度網(wǎng)站管理員提交他們的網(wǎng)站。搜索引擎找到鏈接后,將下載該頁并將其存儲在臨時庫中。同時,蜘蛛將提取頁面的所有鏈接,然后循環(huán)。
答案是肯定的!如果蜘蛛隨機抓取網(wǎng)頁,那么互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量每天都會增加數(shù)不清,蜘蛛無法抓取所有網(wǎng)頁。
策略一:深度優(yōu)先
簡言之,搜索引擎蜘蛛在一個頁面上找到一個鏈接,然后向下爬,然后在下一個頁面上找到另一個鏈接,繼續(xù)向下爬并獲取所有鏈接
策略二:寬度
Width first是搜索引擎蜘蛛首先抓取此頁的鏈接,然后抓取下一頁的所有鏈接。其實,人們常說結(jié)構(gòu)扁平,網(wǎng)頁層次不能太高,否則會影響收藏。
策略三:權(quán)重
如果“寬度優(yōu)先”比“深度優(yōu)先”好,那就不是的。搜索引擎蜘蛛通常同時使用兩種爬行策略,即深度優(yōu)先+寬度優(yōu)先。當使用這兩種策略爬行時,我們應(yīng)該參考鏈接的權(quán)重。如果鏈接是好的,我們應(yīng)該首先使用深度。如果鏈接的權(quán)重很低,則首先是寬度。
策略四:重訪抓取
例如,昨天的搜索引擎蜘蛛來抓取我們的網(wǎng)頁,今天我們向這個網(wǎng)頁添加新內(nèi)容,所以今天的搜索引擎蜘蛛來抓取新內(nèi)容,這叫做重新訪問?;卦L也分為兩部分:
1。完全重訪:指蜘蛛抓取的后一個環(huán)節(jié),然后在本月的某一天全部重訪抓取。
2。單次訪問:一般來說,它是一個快速和穩(wěn)定的頁面更新為某一頁。如果我們不每月更新一次頁面,那么搜索引擎蜘蛛會連續(xù)幾天來到這里。他們不會再回來了。他們會每隔一段時間回來,比如一個月后。