作為搜索引擎優(yōu)化人員,必須了解搜索引擎的工作原理,包括頁面質(zhì)量白皮書、搜索引擎優(yōu)化指南。今天,我們分析了搜索引擎的整個工作原理過程。
搜索引擎的主要工作過程包括:捕獲、存儲、頁面分析、索引、檢索等。也就是說,通常描述抓取、過濾、記錄和排序流個過程。接下來,我們將詳細解釋每個過程及其影響
1、搜索引擎捕獲
蜘蛛抓取系統(tǒng)是搜索引擎數(shù)據(jù)源的重要保證。如果將web理解為有向圖,那么spider的工作過程可以看作是有向圖的遍歷。從一些重要的種子url開始,通過頁面上的超鏈接關(guān)系,我們不斷地找到新的url并抓取它們以抓取盡可能多的有價值的頁面。
互聯(lián)網(wǎng)資源量巨大,這就要求抓取系統(tǒng)盡可能快捷地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取有價值的資源。
2、簡要介紹百度支持的幾種返回碼:
1)常見的404代表“未找到”。它認為網(wǎng)頁已失敗,將在庫中刪除。同時,如果蜘蛛在短時間內(nèi)再次找到這個URL,它將不會抓取它;
2)503代表“服務(wù)不可用”,認為網(wǎng)頁暫時不可訪問。通常,網(wǎng)站暫時關(guān)閉,帶寬有限。
3)403代表“禁止”,認為目前禁止訪問網(wǎng)頁。如果是新的URL,蜘蛛不會臨時抓取,短時間內(nèi)會重復(fù)訪問;如果是包含的URL,則不會直接刪除,短時間內(nèi)會重復(fù)訪問。如果網(wǎng)頁訪問正常,則正常爬網(wǎng);如果仍然禁止訪問,則URL也將被視為無效鏈接并從庫中刪除。
4)301代表“movedpermanently”,認為網(wǎng)頁被重定向到新的URL。在網(wǎng)站遷移、域名變更、網(wǎng)站改版等情況下,建議使用站長平臺301返回碼和網(wǎng)站改版工具,減少改版造成的網(wǎng)站流量損失。
5)由于互聯(lián)網(wǎng)資源的巨大和快速變化,搜索引擎幾乎不可能捕獲所有的資源并保持合理更新的一致性。因此,需要抓取系統(tǒng)設(shè)計一套合理的抓取優(yōu)先級分配策略。主要包括:深度優(yōu)先穿越策略、寬度優(yōu)先穿越策略、公關(guān)優(yōu)先策略、反連鎖策略、社會共享引導(dǎo)策略等
6)蜘蛛在抓取的過程中,經(jīng)常會遇到所謂的“抓取黑洞”,或者面臨很多頁面質(zhì)量不高的問題,這就要求抓取系統(tǒng)中還應(yīng)該設(shè)計一套完善的抓取反系統(tǒng)
7)網(wǎng)站更新頻率:更新越多更新越快,更新越少更新越慢,直接影響拜都斯皮德的訪問頻率
8)網(wǎng)站更新質(zhì)量:隨著更新頻率的增加,只引起了Baiduspider的關(guān)注。拜都斯皮德對質(zhì)量有嚴格要求。如果網(wǎng)站每天更新的大量內(nèi)容被Baiduspider評為低質(zhì)量頁面,那還是毫無意義的。
9)連接性:網(wǎng)站要安全穩(wěn)定,保持Baiduspider的暢通,經(jīng)常關(guān)上Baiduspider的門不是好事
10)站點評價:百度搜索引擎對每個站點都有一個評價,評價會根據(jù)站點情況而變化,這是百度搜索引擎對站點的一個基本評分
3、搜索引擎過濾垃圾內(nèi)容
1)、重復(fù)內(nèi)容網(wǎng)頁:不需要百度在互聯(lián)網(wǎng)上包含現(xiàn)有內(nèi)容。
2)有些內(nèi)容使用百度蜘蛛無法解析的技術(shù),比如JS和Ajax。雖然用戶在訪問時可以看到豐富的內(nèi)容,但仍然會被搜索引擎拋棄
3)加載速度慢的網(wǎng)頁也可以視為空的短網(wǎng)頁。請注意,廣告加載時間包含在網(wǎng)頁的總加載時間中。
4)很多沒有突出主題的網(wǎng)頁即使被搶走也會被丟棄。
5)各種過濾,如過濾掉死鏈、重復(fù)數(shù)據(jù)、垃圾結(jié)果等;
4、如何更好地納入和索引
1)哪些頁面可以進入高質(zhì)量索引庫。事實上,總的原則是:對用戶的價值。包括但不限于:
2)時效性和有價值的頁面:在這種情況下,時效性和價值是并行的。一些網(wǎng)站為了制作時效性強的內(nèi)容頁面,做了大量的收集工作,結(jié)果出現(xiàn)了一堆毫無價值的頁面,百度不想看到這些頁面
3)內(nèi)容質(zhì)量高的專題頁面:專題頁面的內(nèi)容不一定是原創(chuàng)的,也就是說,它可以很好地將各方的內(nèi)容整合在一起,或者添加一些新鮮的內(nèi)容,比如意見和評論,給用戶提供更加豐富和全面的內(nèi)容。
4)高價值原創(chuàng)內(nèi)容頁面:百度將原創(chuàng)定義為一篇花費一定成本、積累大量經(jīng)驗的文章。別問我們假原件是不是原件。
5)重要個人頁面:例如,科比在新浪微博上開設(shè)了一個賬戶。盡管他沒有頻繁更新,但對百度來說,這仍然是一個非常重要的頁面。
5、百度搜索引擎排名的影響因素
1)相關(guān)性:網(wǎng)頁內(nèi)容與用戶檢索要求的匹配程度,如網(wǎng)頁中包含的關(guān)鍵字個數(shù)和這些關(guān)鍵字的位置;外部網(wǎng)頁用來指向網(wǎng)頁的錨文本等
2)有名:用戶喜歡某些有名網(wǎng)站提供的內(nèi)容。因此,百度搜索引擎也相信高質(zhì)有名網(wǎng)站提供的內(nèi)容。
3)及時性:及時性結(jié)果指的是新的網(wǎng)頁,網(wǎng)頁承載著新鮮的內(nèi)容。目前,時效性結(jié)果在搜索引擎中的地位越來越重要。
4)重要性:將web內(nèi)容與用戶的檢查需求相匹配的重要性或流行性
5)豐富性:看似簡單,但卻是一個覆蓋面非常廣的命題。可以理解,網(wǎng)頁內(nèi)容豐富,完全可以滿足用戶的需求;它不僅可以滿足用戶的單一需求,還可以滿足用戶的擴展需求。
6、流行度:指網(wǎng)頁是否流行。
1)終排名,將能滿足用戶需求的結(jié)果排名在首位,包括有用信息如:網(wǎng)站整體評價、頁面質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配度、分散性、及時性等
2)整個過程就是搜索引擎抓取排名結(jié)果頁面的計算過程。當然,影響排名的因素很多。這是網(wǎng)頁分析技術(shù),但是網(wǎng)站的總分是由每個網(wǎng)頁組成的,所以要優(yōu)化每個網(wǎng)頁的細節(jié),做好用戶體驗,提高網(wǎng)站的排名