熱門搜索:

你當(dāng)前所在的位置:首頁  >  網(wǎng)站運(yùn)營資訊  >  百度爬蟲的種類和規(guī)律

百度爬蟲的種類和規(guī)律
發(fā)布時(shí)間:2021-12-29      點(diǎn)擊次數(shù):2707

今天開始探討正式內(nèi)容的第一講了,開始講百度蜘蛛。今天針對廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道,知識零散的點(diǎn),經(jīng)驗(yàn)是點(diǎn)的連線。所以大家在學(xué)習(xí)的時(shí)候養(yǎng)成大局觀,比如說,我們現(xiàn)在在這個(gè)位置。


探索方法

通過對7個(gè)網(wǎng)站的爬蟲日志做追蹤,將百度蜘蛛分為收錄蜘蛛、首頁收錄蜘蛛、快照蜘蛛三大類。

用控制變量法,通過現(xiàn)象看規(guī)律,通過規(guī)律看本質(zhì),通過本質(zhì)講對策。

通過線上實(shí)驗(yàn)來一步一步做驗(yàn)證推導(dǎo)過程。

百度蜘蛛類型有哪幾種

下圖是網(wǎng)上廣泛流傳的百度蜘蛛IP類型說明,其中123開頭的認(rèn)為是降權(quán)蜘蛛,220開頭的一般認(rèn)為是權(quán)重蜘蛛。

到底有木有降權(quán)蜘蛛

看了百度站長的平臺的回復(fù)(年代比較久遠(yuǎn)),百度官方回復(fù)是“沒有”。

http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html


我也認(rèn)為蜘蛛沒有權(quán)重高低之分

為什么分降權(quán)蜘蛛、權(quán)重蜘蛛之說?

如果蜘蛛有權(quán)重高低之說,難道百度一開始就知道你的網(wǎng)站質(zhì)量嗎

百度蜘蛛分類的猜想

百度爬蟲是干什么的,就是把你的網(wǎng)站頁面內(nèi)容扒下來,然后把數(shù)據(jù)拆分為標(biāo)題、摘要、頭圖、正文等結(jié)構(gòu)化數(shù)據(jù),放到百度的數(shù)據(jù)庫里面,提供給用戶搜索。

但是網(wǎng)頁數(shù)量以百億計(jì),每個(gè)頁面都有快照備份是不現(xiàn)實(shí)的。

大膽猜想,百度蜘蛛應(yīng)該有功能之分,并未高低權(quán)重之說。

現(xiàn)象1:內(nèi)頁爬取規(guī)律

新上的某個(gè)網(wǎng)頁的爬取記錄,我們可以看到,通常都是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行。


然后隔1-2天,快照必會有更新。比如2019年7月27號220開頭蜘蛛訪問之后,7月28日快照就更新了。


現(xiàn)象2 首頁爬取規(guī)律

看下圖,首頁的百度爬蟲日志,19年6月26上線后,基本上也是123開頭的爬蟲先行,220爬蟲后行,隔天快照更新。


現(xiàn)象3 頁面404后的百度爬取規(guī)律

我認(rèn)為實(shí)驗(yàn)了2個(gè)404頁面,123開頭的爬蟲爬取后,一般是2次404之后,不再派爬蟲來爬了。


現(xiàn)象4 劣質(zhì)頁面爬取規(guī)律

我也試驗(yàn)了隨機(jī)段落混合而成的內(nèi)容(比如下圖妹子不錯(cuò),但妹子上面的文字很爛),百度123開頭蜘蛛抓了一次就再也不抓了,5月11號上線,至今無快照。

看來百度對隨機(jī)拼湊的內(nèi)容還是有識別的。

上一條:【seo優(yōu)化】新網(wǎng)站關(guān)鍵字優(yōu)化要怎么做呢
下一條:單頁網(wǎng)站如何做優(yōu)化
您可能感興趣的文章