首页 > SEO技术 > 正文

robots文件是什么?robots文件的作用解析

作者: admin     来源: 红尘画舫     发布时间: 2019-09-17 19:22:36    浏览人数:
摘要做网站优化,你可以不认识css,也可以不认识php,但不能不了解robots协议。那么robots协议到底是什么呢?下面我们就来详细解析robots协议是什么,以及robots文件的作用与用法。一、什么是robots协议?robots协议也叫robots.txt
做seo优化,你可以不认识css,也可以不认识php,但不能不了解robots协议。那么robots协议到底是什么呢?下面我们就来详细解析robots协议是什么,以及robots文件的作用与用法。

一、什么是robots协议?

robots协议也叫robots.txt,是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,它放在网站的根目录下。搜索引擎蜘蛛访问网站的时候要查看的第一个文件就是robots.txt,如果站点根目录下有robots文件存在,搜索机器人就会按照文件中的内容来确定访问的范围;如果没有robots文件,那么所有的搜索蜘蛛将能够访问网站上所有的页面。
什么是robots协议

简单来说,robots能指定网站的哪些页面能让搜索引擎的网络爬虫爬,哪些页面不让搜索引擎的网络爬虫抓取。

二、robots.txt文件的写法

User-agent: *  (注释:表示定义所有蜘蛛)
User-agent: Baiduspider  (注释:表示自定义百度蜘蛛)
User-agent: Googlebot  (注释:表示自定义谷歌蜘蛛)

User-agent: *
Allow: /  (注释:允许搜索引擎爬虫爬取)

User-agent: *
Disallow: /  (注释:禁止搜索引擎蜘蛛爬取网站)

User-agent: *
Disallow: /*  (注释:只允许搜索引擎爬虫爬取网站首页)

User-agent: *
Disallow: /abc   (注释:禁止抓取abc文件夹及abc文件夹下的所有文件)

User-agent: *
Disallow: /abc/   (注释:禁止抓取abc文件夹下面的所有文件,但是abc文件夹是允许被访问的)

User-agent: *
Disallow: /*?*  (注释:禁止抓取网站中的动态页面)

User-agent: *
Disallow: /*.css$
Disallow: /*.js$
Disallow: /*.php$
(注释:禁止搜索引擎蜘蛛访问css、js、php等文件)

User-agent: *
Disallow: /a*/   (注释:禁止抓取a开头的文件夹以及文件夹下的所有文件)

User-agent: *
Disallow: /a*d/   (注释:禁止抓取所有以字母a开始、以字母d结束的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)
robots文件案例
三、robots文件的用法:

1、屏蔽死链。网站被黑上传一堆垃圾页面,删除这些页面后会产生一堆404页面,这时候可以用robots文件去屏蔽这些死链。

2、屏蔽动态页面。网站动态页面做了伪静态处理,动态页面的URL没有做301跳转到静态的url上,使得一个页面存在两个url的情况,这时候可以屏蔽动态页面的url,不让搜索引擎蜘蛛抓取即可。

3、屏蔽一些对于搜索引擎来说没什么意义的文件。搜索引擎蜘蛛的资源也是有限的,让蜘蛛爬行网站重点文件、目录,能节约蜘蛛的资源。

4、屏蔽一些国外垃圾搜索引擎来大量抓取网站数据,减轻服务器的压力。

以上便是robots协议与robots文件的作用详细解析,希望对大家有所帮助。
TAGS:robots
很赞哦! ()