一边吃奶一边做爰,2021国产精品毛片久久,51精产国品一二三区

百度爬蟲的種類和規(guī)律

發(fā)布時(shí)間：2021-12-29 點(diǎn)擊次數(shù)：2707

今天開始探討正式內(nèi)容的第一講了，開始講百度蜘蛛。今天針對廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道，知識零散的點(diǎn)，經(jīng)驗(yàn)是點(diǎn)的連線。所以大家在學(xué)習(xí)的時(shí)候養(yǎng)成大局觀，比如說，我們現(xiàn)在在這個(gè)位置。

探索方法

通過對7個(gè)網(wǎng)站的爬蟲日志做追蹤，將百度蜘蛛分為收錄蜘蛛、首頁收錄蜘蛛、快照蜘蛛三大類。

用控制變量法，通過現(xiàn)象看規(guī)律，通過規(guī)律看本質(zhì)，通過本質(zhì)講對策。

通過線上實(shí)驗(yàn)來一步一步做驗(yàn)證推導(dǎo)過程。

百度蜘蛛類型有哪幾種

下圖是網(wǎng)上廣泛流傳的百度蜘蛛IP類型說明，其中123開頭的認(rèn)為是降權(quán)蜘蛛，220開頭的一般認(rèn)為是權(quán)重蜘蛛。

到底有木有降權(quán)蜘蛛

看了百度站長的平臺的回復(fù)（年代比較久遠(yuǎn)），百度官方回復(fù)是“沒有”。

http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html

我也認(rèn)為蜘蛛沒有權(quán)重高低之分

為什么分降權(quán)蜘蛛、權(quán)重蜘蛛之說？

如果蜘蛛有權(quán)重高低之說，難道百度一開始就知道你的網(wǎng)站質(zhì)量嗎

百度蜘蛛分類的猜想

百度爬蟲是干什么的，就是把你的網(wǎng)站頁面內(nèi)容扒下來，然后把數(shù)據(jù)拆分為標(biāo)題、摘要、頭圖、正文等結(jié)構(gòu)化數(shù)據(jù)，放到百度的數(shù)據(jù)庫里面，提供給用戶搜索。

但是網(wǎng)頁數(shù)量以百億計(jì)，每個(gè)頁面都有快照備份是不現(xiàn)實(shí)的。

大膽猜想，百度蜘蛛應(yīng)該有功能之分，并未高低權(quán)重之說。

現(xiàn)象1：內(nèi)頁爬取規(guī)律

新上的某個(gè)網(wǎng)頁的爬取記錄，我們可以看到，通常都是123開頭的蜘蛛先行，然后220開頭的蜘蛛后行。

然后隔1-2天，快照必會有更新。比如2019年7月27號220開頭蜘蛛訪問之后，7月28日快照就更新了。

現(xiàn)象2 首頁爬取規(guī)律

看下圖，首頁的百度爬蟲日志，19年6月26上線后，基本上也是123開頭的爬蟲先行，220爬蟲后行，隔天快照更新。

現(xiàn)象3 頁面404后的百度爬取規(guī)律

我認(rèn)為實(shí)驗(yàn)了2個(gè)404頁面，123開頭的爬蟲爬取后，一般是2次404之后，不再派爬蟲來爬了。

現(xiàn)象4 劣質(zhì)頁面爬取規(guī)律

我也試驗(yàn)了隨機(jī)段落混合而成的內(nèi)容（比如下圖妹子不錯(cuò)，但妹子上面的文字很爛），百度123開頭蜘蛛抓了一次就再也不抓了，5月11號上線，至今無快照。

看來百度對隨機(jī)拼湊的內(nèi)容還是有識別的。

上一條：【seo優(yōu)化】新網(wǎng)站關(guān)鍵字優(yōu)化要怎么做呢
下一條：單頁網(wǎng)站如何做優(yōu)化

您可能感興趣的文章

> 單頁網(wǎng)站如何做優(yōu)化[2022-01-11]
> 【seo優(yōu)化】新網(wǎng)站關(guān)鍵字優(yōu)化要怎么做呢[2020-07-31]
> seo網(wǎng)站推廣怎么操作比較合適[2020-07-31]
> 徐州seo中黑帽seo會帶來哪些危害[2020-07-31]
> 徐州SEO正確操作方法有哪些[2020-07-31]

網(wǎng)商天下(徐州網(wǎng)絡(luò)公司)用互聯(lián)網(wǎng)持續(xù)為社會創(chuàng)造價(jià)值！

你知道嗎？網(wǎng)站是你銷售給客戶的首要產(chǎn)品

網(wǎng)商營銷型網(wǎng)站讓您的網(wǎng)站天生具備營銷力

熱門搜索：

探索方法