- 作者:admin
- 发表时间:2022-08-19 15:35:00
- 来源:
1、网站部分资源不希望被百度蜘蛛访问该怎么做?
百度蜘蛛遵守互联网robots协议。站长可以更新robots.txt文件,文件中明确不希望百度蜘蛛访问资源或目录等,并及时通过搜索资源平台-【Robots】工具,提交robots文件。
需要注意,robots文件更新和提交后,搜索引擎需要逐渐完成更新,所以百度蜘蛛不是立即停止抓取网页,请耐心等待。
2 、网站封禁百度蜘蛛,可能会带来哪些影响?
网站资源优质,也没有其他违规问题,但是存在以下情况,可以先自查是否存在封禁百度蜘蛛的问题,及时解除封禁(解除封禁参考QA7),等待恢复。
(1)没有查询到百度蜘蛛任何抓取记录。
(2)在百度搜索中没有得到收录和展现。
(3)网站/目录存在流量异常下降的情况。
(4)在搜索结果中的摘要展现为“存在robots封禁”字样。
3 、如何解除封禁百度蜘蛛?
常见的封禁行为包括robots封禁、封禁百度UA、封禁百度IP这三种,可以逐一排查解决。
自查robots封禁
查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。)
自查是否封禁百度UA
robots文件无异常的情况下,进一步排查是否存在封禁百度UA情况。
第一种方法:执行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'
注意:正常返回码是200,其他情况为异常。
第二种方法:变更浏览器UA验证。
自查是否存在IP封禁
以上验证均无异常,最后进一步排查是否存在IP级别的封禁。
常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。