成人免费视频97,国产激情视频在线看,亚洲精品一线,亚洲精品国产欧美

網(wǎng)站優(yōu)化技術(shù)

百度蜘蛛流量占用問(wèn)題與robots.txt協(xié)議優(yōu)化策略

發(fā)布于:
最后更新時(shí)間:
熱度:286

一、問(wèn)題背景與現(xiàn)象分析

當(dāng)前部分網(wǎng)站面臨搜索引擎蜘蛛過(guò)度抓取導(dǎo)致的流量占用問(wèn)題,具體表現(xiàn)為服務(wù)器帶寬資源被大量消耗。通過(guò)網(wǎng)站訪問(wèn)日志可觀測(cè)到高頻爬取記錄,其中以百度蜘蛛(BaiDuSpider)尤為突出。值得注意的是,若為正常搜索引擎爬蟲(chóng)行為,直接禁止訪問(wèn)可能引發(fā)網(wǎng)站在搜索引擎中的收錄量下降及排名丟失,進(jìn)而導(dǎo)致潛在客戶流失。針對(duì)此類(lèi)情況,優(yōu)先考慮通過(guò)升級(jí)虛擬主機(jī)配置或遷移至云服務(wù)器(不限流量)來(lái)擴(kuò)容資源,而非簡(jiǎn)單攔截爬蟲(chóng)。

二、robots.txt協(xié)議規(guī)范與實(shí)例解析

搜索引擎普遍遵循robots協(xié)議,該協(xié)議通過(guò)網(wǎng)站根目錄下的robots.txt文件實(shí)現(xiàn)爬取權(quán)限控制。以下為典型配置示例:

- 示例1:禁止所有搜索引擎訪問(wèn)全站

```plaintext

User-agent:

Disallow: /

```

- 示例2:允許所有搜索引擎訪問(wèn)(或創(chuàng)建空文件)

```plaintext

User-agent:

Allow:

```

- 示例3:禁止百度蜘蛛訪問(wèn)

```plaintext

User-agent: Baiduspider

Disallow: /

```

- 示例4:允許百度蜘蛛訪問(wèn)

```plaintext

User-agent: Baiduspider

Allow: /

```

- 示例5:禁止特定目錄被爬取

```plaintext

User-agent:

Disallow: /admin/

Disallow: /install/

```

- 示例6:僅允許百度與谷歌蜘蛛訪問(wèn)

```plaintext

User-agent: Baiduspider

Allow: /

User-agent: Googlebot

Allow: /

User-agent:

Disallow: /

```

- 示例7:禁止百度蜘蛛抓取圖片資源

```plaintext

User-agent: Baiduspider

Disallow: /.jpg$

Disallow: /.jpeg$

Disallow: /.gif$

Disallow: /.png$

Disallow: /.bmp$

```

三、針對(duì)性配置方案與生效機(jī)制

結(jié)合網(wǎng)站日志分析,若發(fā)現(xiàn)百度蜘蛛主要因圖片抓取占用流量,且需屏蔽/admin/、/install/目錄,可配置如下規(guī)則:

```plaintext

User-agent:

Disallow: /admin/

Disallow: /install/

User-agent: Baiduspider

Disallow: /.jpg$

Disallow: /.jpeg$

Disallow: /.gif$

Disallow: /.png$

Disallow: /.bmp$

```

需注意,搜索引擎索引庫(kù)更新存在延遲,規(guī)則設(shè)置后蜘蛛爬行行為不會(huì)立即終止,需數(shù)月時(shí)間逐步減少直至完全生效。若需加速屏蔽,可通過(guò)搜索引擎反饋中心提交申訴。若部分爬蟲(chóng)不遵守robots協(xié)議,可結(jié)合偽靜態(tài)規(guī)則進(jìn)一步攔截(參考:西部數(shù)碼偽靜態(tài)攔截方案)。

四、高并發(fā)抓取導(dǎo)致的帶寬擁堵解決方案

當(dāng)百度蜘蛛抓取頻次過(guò)高引發(fā)帶寬堵塞時(shí),可通過(guò)百度站長(zhǎng)工具(http://zhanzhang.baidu.com/)進(jìn)行干預(yù):

1. 完成網(wǎng)站驗(yàn)證后,進(jìn)入“網(wǎng)頁(yè)抓取-抓取頻次”頁(yè)面;

2. 針對(duì)無(wú)價(jià)值鏈接,更新robots.txt并使用“robots.txt工具”提交生效;

3. 若影響網(wǎng)站正常訪問(wèn),直接在“抓取頻次上限調(diào)整”頁(yè)面降低閾值;

4. 若問(wèn)題持續(xù),通過(guò)反饋中心提交工單。

五、權(quán)威資源與延伸學(xué)習(xí)

為深入理解爬蟲(chóng)行為與robots.txt配置,可參考以下標(biāo)準(zhǔn)資料:

- 百度蜘蛛幫助中心:http://www.baidu.com/search/spider.html

- Googlebot幫助中心:http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072

- 搜狗蜘蛛幫助中心:http://www.sogou.com/docs/help/webmasters.htm

- Robots.txt協(xié)議詳解:http://baike.baidu.com/view/1280732.htm

- 百度官方robots.txt寫(xiě)法指南:http://www.baidu.com/search/robots.html

若遇違規(guī)爬蟲(chóng),可通過(guò)百度投訴平臺(tái)(http://tousu.baidu.com/webmaster/suggest#1)提交處理。

---

最新資訊

為您推薦

聯(lián)系上海網(wǎng)站優(yōu)化公司

上海網(wǎng)站優(yōu)化公司QQ
上海網(wǎng)站優(yōu)化公司微信
添加微信
主站蜘蛛池模板: 堆龙德庆县| 綦江县| 银川市| 罗定市| 石门县| 焦作市| 汉寿县| 古蔺县| 宁明县| 林西县| 安远县| 乐都县| 南华县| 县级市| 西华县| 灵璧县| 得荣县| 岐山县| 瑞昌市| 深圳市| 台中市| 绥德县| 长泰县| 吉林省| 临西县| 宁国市| 马边| 正定县| 江口县| 永康市| 台东县| 静安区| 曲靖市| 扶余县| 乐山市| 淮北市| 瑞安市| 永州市| 米泉市| 郯城县| 乌鲁木齐县|