有數(shù)以萬億計的網頁被搜索引擎索引,用戶搜索的關鍵詞也非常龐大。如果每個用戶提交一個搜索請求,搜索引擎將以萬億個索引重新排列頁面,效率將非常低。根據2-8規(guī)則,80%的查詢集中在相同的20%的內容上,實際的搜索引擎將關鍵字檢索結果存儲在緩存數(shù)據庫中。一旦其他用戶請求相同的查詢,他們就可以直接快速地返回結果。當然,為了保證數(shù)據的及時有效,cache數(shù)據庫中會有小的更新,而且大多數(shù)cache+小的更新機制都非常大,可以節(jié)省服務器資源,提高響應速度。
下面詳細介紹了搜索引擎搜索頁面的自然排序,這也是歷史緩存庫的基礎和更新緩存的類似邏輯過程。決定網頁自然排名的因素主要有:關鍵詞相關性、鏈接相關性、網站權重、用戶體驗和檢測。
首先是網站主題的相關性匹配。比如某IT技術網站突然發(fā)豬飼料文章,對目標用戶體驗不好。第二,網頁相關性。網頁檢索是基于關鍵字匹配的。關鍵詞的特征代表了網頁描述的主題和內容。主要特點如下。
(1) 頁面標題、關鍵字、說明頁面級功能。
(2) 關鍵詞密度強調內容,一般2%-8%是合理的。
(3) 關鍵字出現(xiàn)的位置。關鍵詞應該出現(xiàn)在文章的開頭。
Link是爬蟲捕獲網頁的鏈接,其重要性不言而喻。它是類似內容的鏈接傳輸,非常有利于用戶體驗。搜索引擎采用鏈路信任傳輸機制,傳輸權重是排名的重要因素,因此站外鏈路的建設和站內鏈路的建設具有很大的價值。
搜索引擎的根本目的是為用戶提供良好的體驗,主要包括:
(1) 畫面簡單,廣告干擾小。搜索引擎可以通過頁面結構進行判斷。
(2) 響應速度太慢,響應速度太慢,不利于用戶體驗和爬蟲分析。
(3) 用戶點擊率、跳出率、訪問深度、停留時間等越來越受到重視,因為搜索引擎的目標是為客戶提供有價值的內容,甚至是解決用戶的需求,而這些相關信息可以作為評價的重要依據。
權重是搜索引擎對每個網站的綜合評價,作為網站狀態(tài)的主要標志。權重高的網站在搜索引擎中排名。政府網站、有名行業(yè)站、新聞源站,甚至大品牌認證的官方網站都有選擇權和排名權。因此,會有個別小站發(fā)布的高原創(chuàng)作內容,由有名大站轉發(fā),但他們認為大站是原創(chuàng)的。
新聞源是指符合搜索引擎新聞采集標準的新聞源,站內信息優(yōu)先由搜索引擎采集,由網絡媒體轉載,作為網絡新聞的源媒體。新聞源具有“種子源”、收集快、轉載廣、具有一定的公信力和有名性等特點。
有了索引引擎,就有了吸引流量的優(yōu)化,有了優(yōu)化,這是一場永無止境的斗爭。搜索引擎需要防止大量垃圾信息干擾用戶,搜索結果應盡量防止非法信息公開。發(fā)現(xiàn)有欺騙、違法行為的,給予相應的處罰。