robots相当于蜘蛛的通行证,可以告诉他哪里可以抓取,哪里不可以抓取,注意:抓取和爬取是不一样的,如果您设置了禁止目录,蜘蛛就算爬取了但是不会抓取的。生成之后请在百度站长robots校验激活
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
用一句话来解释:robots就是蜘蛛与网站的一种协议。
至于robots有什么用,相信认真看上文的小伙伴还是有一定的收获。冬镜认为合理的robots还是有以下几方面的好处:
1、可以避免蜘蛛爬取收录我们不想展现给别人看的页面。例如网站后台地址,个人隐私日志等。
2、可以减轻服务器压力。我们通过robots协议可以让蜘蛛只抓取一部分页面,避免蜘蛛胡乱抓取一些没用的页面,占用服务器资源。
3、正确的robots协议会提升整站质量,促使快速收录排名,从而提高网站权重。
robots协议格式应该怎么写?
先给大家看一个最简单的robots文件的写法:
- user-agent: *
- Disallow: /inc/
- Allow: /uqseo
- Sitemap: 域名/sitemapxq7jely9mgz.xml
复制代码
上文中User-agent代表的是搜索引擎蜘蛛的名字,一般常用的是*,代表通配,换句话说就是该协议对所有搜索引擎蜘蛛都有用;Disallow指不允许访问的对象,比如某一个css、js、图片、视频、文件夹等,Disallow: /inc/代表的就是不允许搜索引擎蜘蛛爬行抓取inc文件夹下的所有文件;Allow指允许搜索引擎蜘蛛访问的路径,Allow: /uqseo代表的是带有uqseo的文件或文件夹 ;Sitemap指本站的地图,一般为.xml或.txt格式的地址,值得注意的是这里一定要写绝对地址。 |
温馨提示:
1、在资源网里发表的文章仅代表作者本人的观点,与本网站立场无关。
2、资源网的所有内容都不保证其准确性,有效性,时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
3、当政府机关依照法定程序要求披露信息时,本资源网均得免责。
4、若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失,资源网不负任何责任。
5、注册会员通过任何手段和方法针对资源网进行破坏,我们有权对其行为作出处理。并保留进一步追究其责任的权利。
6、
如遇到加密压缩包,默认解压密码为"www.52qians.com",如遇到无法解压的请联系管理员!