WordPress站点添加Robots.txt文件优化蜘蛛爬虫

【前言】

什么是robots文件:
Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有该文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录网站所有页面。通常我们都会填写好robots.txt 文件并将其添加至网站的根目录中,从而优化网站的收录结果和权重。

在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:

作用:意思是告诉搜索引擎不要抓取后台程序文件。
注意:该robots.txt文件不真实存在,是Wordpress虚拟出来的,但可以正常访问。
关于 roboots.txt 的书写格式以及作用,可以查看百度的: robots.txt 配置教程

创建规则

显然以上的规则是不完善的,下面给出一个比较完整的robots.txt文件参考内容,也是本站在使用的一个规则:
注: 仅限于Wordpress主题使用…..

在网站的根目录下创建一个robots.txt的文件,并将以下内容粘贴进去即可。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /*/*page/*
Disallow: /tag/*/page/
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/
转载请注明出处,如有侵权请联系我删除。如有资源链接失效请给我写信
角落吧 » WordPress站点添加Robots.txt文件优化蜘蛛爬虫

发表评论