网站推广三步走:十秒注册 -> 提交网站 -> 快速审核 -> 带来无限流量和外链 -> 点入及点出一次即可排名第一位
当前位置:亿站网 » 站长资讯 » 站长知识 » 文章详细

robots.txt文件详细教程

来源:网络 浏览:18次 时间:2023-11-27

robots文件是网站和各大搜索引擎建立良好沟通的桥梁,也是网站从搜索引擎获得流量的开端第一步,因为robots的设置不当,很有可能会失去很大一部分的流量。对于SEO优化的从业者或者是爱好者,必须要知道其中的原理和设置方法,对于网站管理员及相关的开发技术人员,了解robots.txt文件的设置方法是一项额外加分的工作技能。网上也有很多的相关教程,但总是残缺不全或难以理解,所以决定详细的梳理一遍。


robots.txt的作用是什么?

robots.txt文件只有一个作用:用于屏蔽一个或多个搜索引擎禁止收录你网站上的内容。默认情况下网站都是允许任何搜索引擎抓取和收录页面的,但出于某种目的,你可以屏蔽某个或多个搜索引擎收录你网站上的页面,为了达成这一共识,于是robots协议就顺利诞生了,所有的搜索引擎都遵循robots协议。


每个搜索引擎都一个被称为蜘蛛(spider)或机器人(bot)的程序,我们习惯上称之为“蜘蛛”,在决定是否抓取你的网站页面时,蜘蛛会首先检查你网站的根目录里面是否存在robots.txt文件,如果没有robots.txt则说明是允许全部抓取的;如果存在robots.txt文件,蜘蛛会识别里面有没有自己的名称在被拒绝之列,然后再判断你设置的那些内容是不允许抓取的,再进行网页的抓取和收录。

robots.txt文件的写法

基本语法

默认情况下是整个网站全部允许被任何搜索引擎抓取收录的,robots.txt只用于禁止搜索引擎收录,所以只需要添加搜索引擎蜘蛛的名称(User-agent)和disallow(禁止收录的内容)即可,特殊情况下也可以使用allow语法。

User-agent: *Disallow: /Allow: *.html$#seo


由于默认是allow状态的,所以第5句、6句一般不写。只写disallow的部分。你可能已经发现了,user-agent后面只能是具体的蜘蛛名称或星号,而disallow和allow后面的内容是全站时均使用斜杠而不是其他符合,因为他们后面的是指网站的目录,所以在指向目录时就不能使用别的符合,比如“disallow:*”这个写法就错了。

禁止抓取和收录目录及文件的写作语法,下面分别举例说明。

1、禁止搜索引擎收录指定的目录User-agent: *Disallow: /asf/Disallow: /2020/

上的意思是对于所有的搜索引擎,均禁止收录asf和2020文件夹里面的任何内容。在屏蔽文件夹时最后要加斜杠结束,如果这样写“Disallow: /2020”,结尾没有加斜杠,则表示根目录下以2020开头的网址均被禁止,如/2020.html、/2020abc.html、/2020/df.html均被禁止收录,所以在写作disallow屏蔽目录时千万不要弄错了。


User-agent: *Disallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.png$Disallow: /*.gif$

以上分别是禁止收录全站jpg/jpeg/png/gif格式的图片。

6、只允许搜索引擎收录静态页面User-agent: *Allow: /*.html$Disallow: /

配合allow来使用,禁止收录全站任何url,然后使用allow来允许收录以“.html”结尾的url即可。

以上就是全部robots文件的写法,其中难点是通配符星号的是用和结束符$的使用,要学会灵活的举一反三,在每写完一条记录时都要确保没有屏蔽错url,每行一条记录。对于robots.txt文件,每一次在写完之后都认真检查一遍,写错了损失就大了。

推荐站点

最新点入

最新点出

最新收录