摘要:要想進行SEO,必須了解搜索引擎的工作原理,了解自己,了解他人,才能立于不敗之地。本文主要論述了搜索引擎的基本概念和工作原理。由于內(nèi)容龐大,分為兩部分。
現(xiàn)在互聯(lián)網(wǎng)上有上千億個網(wǎng)頁,它們存儲在不同的服務(wù)器上,分布在世界各地的數(shù)據(jù)中心和機房中。對于搜索引擎來說,幾乎不可能抓取所有的網(wǎng)頁在互聯(lián)網(wǎng)上。根據(jù)公布的數(shù)據(jù),容搜索引擎只抓取了總網(wǎng)頁數(shù)的40%左右。一方面,爬行技術(shù)存在一個瓶頸,無法遍歷所有網(wǎng)頁,許多網(wǎng)頁無法從其他網(wǎng)頁的鏈接中找到;另一個原因是存儲技術(shù)和處理技術(shù)的問題。如果每個頁面的平均大小為20K(包括圖片),則100億個網(wǎng)頁的容量為100倍;2000g字節(jié),即使可以存儲,下載也存在問題(根據(jù)機器下載的每秒20K的計算,需要下載340臺機器一年才能完成所有網(wǎng)頁的下載)。同時,由于數(shù)據(jù)量大,搜索效率也會受到影響。因此,許多搜索引擎的web蜘蛛僅僅抓住了這些重要的網(wǎng)頁,而評價其重要性的主要依據(jù)是網(wǎng)頁的鏈接深度。
有人認為,當搜索引擎收到搜索請求時,它會實時查詢世界上所有服務(wù)器的信息,并向用戶顯示查詢結(jié)果。這實際上是個誤會。如果搜索引擎這樣工作,那么可能需要數(shù)年時間才能通過查詢一條信息(不包括在此期間網(wǎng)頁的更改)獲得搜索結(jié)果。其實,搜索引擎會提前訪問大量網(wǎng)站,并提前將這些頁面的部分信息存儲在自己的服務(wù)器上。這樣,當用戶搜索時,他們實際上在搜索引擎自己的服務(wù)器上查詢,就像我們在自己的計算機中查詢文件一樣。
搜索引擎是一項非常復(fù)雜的技術(shù),但其基本原理并不復(fù)雜,其基本技術(shù)包括爬行、索引、排序。