網(wǎng)站日志應(yīng)該分析哪些數(shù)據(jù)?從基本信息、目錄抓取、時(shí)段抓取、IP抓取、狀態(tài)碼等方面進(jìn)行分析
一是基本情況
下載一個(gè)網(wǎng)站日志文件工具,獲取基本信息:爬行總量、停留時(shí)間(H)和訪問(wèn)次數(shù);通過(guò)這三個(gè)基本信息,我們可以計(jì)算出:每次爬行的平均頁(yè)面數(shù)、單頁(yè)爬行的停留時(shí)間,然后利用MSSQL提取爬行器的爬行量,并根據(jù)上述數(shù)據(jù)計(jì)算爬行器的重復(fù)爬行率
統(tǒng)計(jì)一段時(shí)間的數(shù)據(jù),可以看出整體趨勢(shì)是什么,這樣就可以發(fā)現(xiàn)問(wèn)題,可以調(diào)整網(wǎng)站的整體策略。以下是網(wǎng)站管理員的基本日志信息示例:
從日志的基本信息來(lái)看,我們需要看到其整體趨勢(shì)的調(diào)整,哪些方面需要加強(qiáng)。
從這個(gè)整體趨勢(shì)來(lái)看,我們可以看到爬行總量在下降,所以我們需要做一些相應(yīng)的調(diào)整。
總的來(lái)說(shuō),重復(fù)爬行的比率上升了一點(diǎn)。這需要一些細(xì)節(jié),更多的爬行入口,以及機(jī)器人和nofollow技能的使用。
爬蟲單側(cè)駐留時(shí)間,一旦看到一篇軟文,網(wǎng)頁(yè)加載速度如何影響SEO流量;提高網(wǎng)頁(yè)加載速度,減少爬蟲單側(cè)駐留時(shí)間,可以貢獻(xiàn)爬蟲的總抓取量,進(jìn)而增加網(wǎng)站的收錄量,從而提高網(wǎng)站的整體流量。從16號(hào)到20號(hào)服務(wù)器出現(xiàn)了一些問(wèn)題。調(diào)整后,速度明顯加快,單頁(yè)停留時(shí)間相應(yīng)縮短。
相應(yīng)調(diào)整如下:
從本月的整理情況看,爬蟲的抓取量在減少,重復(fù)抓取率在增加。綜合分析需要從站內(nèi)外環(huán)節(jié)進(jìn)行調(diào)整。網(wǎng)站中的鏈接應(yīng)與錨文本盡可能多。如果你不能,你可以推薦其他頁(yè)面上的超鏈接,這樣蜘蛛就可以盡可能深入地捕捉它們。因此,非網(wǎng)站鏈接需要以多種方式發(fā)布。目前,平臺(tái)太少。如果深圳新聞網(wǎng)、上國(guó)網(wǎng)等網(wǎng)站出現(xiàn)錯(cuò)誤,我們的網(wǎng)站將受到嚴(yán)重影響。站外平臺(tái)要寬,發(fā)布的鏈接要多樣化,不能直接發(fā)到主頁(yè)的要加強(qiáng)。目前,站外平臺(tái)太少。近10W的外部鏈接集中在幾個(gè)平臺(tái)上。
第二,目錄抓取
使用MSSQL提取爬蟲爬網(wǎng)的目錄,并分析每天爬網(wǎng)的目錄數(shù)量。您可以清楚地看到每個(gè)目錄的爬行情況。另外,還可以比較之前的優(yōu)化策略,優(yōu)化是否合理,關(guān)鍵列優(yōu)化是否達(dá)到預(yù)期效果。
綠色:主列黃色:差抓粉色:差抓深藍(lán)色:需要禁止列
我們可以看到,整體趨勢(shì)沒(méi)有太大變化,只是兩欄的截圖有了很大的變化。
總體把握較少。在主欄中,抓取較少的是:XXX,XXX,XXX。一般來(lái)說(shuō),我們需要增加整個(gè)網(wǎng)站的導(dǎo)入端口,配合外鏈,加強(qiáng)站內(nèi)的內(nèi)部鏈接建設(shè)。對(duì)于薄弱環(huán)節(jié),要加強(qiáng)處理。同時(shí),將深藍(lán)的欄目寫入機(jī)器人進(jìn)行屏蔽,并將網(wǎng)站導(dǎo)入這些欄目進(jìn)行URL nofollow,避免權(quán)重只進(jìn)不出。
三是時(shí)段捕捉
通過(guò)Excel中的數(shù)組函數(shù),提取爬蟲每日抓取的時(shí)間段,重點(diǎn)對(duì)每日抓取進(jìn)行分析,找到對(duì)應(yīng)抓取更密集的時(shí)間段,可以有針對(duì)性地更新內(nèi)容。同時(shí),可以看出抓取異常。
某一天哪個(gè)時(shí)點(diǎn)有問(wèn)題,而且也是總把握是下降趨勢(shì)。
通過(guò)時(shí)間段抓取,我們做了相應(yīng)的調(diào)整:
通過(guò)圖中的表色,我們可以看出服務(wù)器并不是特別穩(wěn)定。我們需要加強(qiáng)服務(wù)器的穩(wěn)定性。另外,17、18、19三天,連續(xù)攻擊,掛鏈,但爬行正常,這說(shuō)明這些網(wǎng)站都造成了一定的影響!
第四,IP段抓取
通過(guò)MSSQL在日志中提取爬蟲的IP,通過(guò)Excel進(jìn)行統(tǒng)計(jì),每天每個(gè)IP的抓取量,我們也需要整體來(lái)看,如果IP段沒(méi)有明顯的變化,那么網(wǎng)站的提升權(quán)問(wèn)題不大。因?yàn)榕老x的IP段在網(wǎng)站升級(jí)或降權(quán)時(shí)會(huì)發(fā)生變化。
五是狀態(tài)碼的統(tǒng)計(jì)
在此之前,您需要知道HTTP狀態(tài)碼返回值表示什么。
如果一個(gè)網(wǎng)站被搜索引擎爬網(wǎng)的次數(shù)和頻率較多,那么更有利于排名,但是如果你的網(wǎng)站出現(xiàn)次數(shù)過(guò)多,那么就會(huì)降低搜索引擎的頻率和頻率,從而使你的網(wǎng)站排名比別人低一步。調(diào)整:服務(wù)器可以清除下一個(gè)緩存。
百度爬蟲數(shù)據(jù)圖,密密麻麻的數(shù)據(jù),以上所有數(shù)據(jù)都是從這里調(diào)用的