首页 > 常识 > 互联网 > 网站制作 > 网站推广 安全 | 健康 | 食物 | 常识 | 孩子 | 女人 | 生育 | 男人 | 老人
站内搜索

搜索引擎公共协议(robots)的作用及范例

作者:擎天柱  时间:2016-04-14
描述:屏蔽无页面的内容,这点对站点的权重有较大的影响。 通过使用robots,我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。 通过这样,避免搜索引擎抓取这些无内容的页面。
robots的作用
 
robots的作用主要是控制搜索引擎的抓取,主要有以下几个方面
 
1:屏蔽站内的死链接。
 
2:屏蔽无页面的内容,这点对站点的权重有较大的影响。 通过使用robots,我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。  通过这样,避免搜索引擎抓取这些无内容的页面。
 
3:屏蔽站点目录:在这里,主要是一些程序目录——比如后台管理目录,会员管理目录等重要保密信息的目录。
 
4:屏蔽一些功能页面:比如成都机票网的在线机票查询这样的功能页面。
 
在这里穿插一个很有用的语法,<meta content=”Baiduspider”   content= “noarchive”>  这个语法的主用是禁止在百度搜索引擎上显示百度快照。 “Baiduspider”即百度蜘蛛。    对于其他搜索引擎的快照屏蔽也可以使用这个语言。
 
备注 Google蜘蛛名称: Googlebot 
 
百度(Baidu)蜘蛛名称:Baiduspider 
 
雅虎(Yahoo)蜘蛛名称:Yahoo Slurp 
 
有道(Yodao)蜘蛛名称:YodaoBot 
 
搜狗(sogou)蜘蛛名称:sogou spider
 
robots语法
 
  1:User-agent:(定义搜索引擎)
 
  例如User-agent:Googlebot (定义百度)
 
           User-agent:Baiduspider  (定义谷歌)
 
           User-agent:*(定义所有搜索引擎)
 
  2:   Disallow:(禁止语法)  用来定义禁止蜘蛛爬取的页面或目录。
 
  例如:Disallow:/    (禁止蜘蛛爬取网站的所有目录)
 
            Disallow:/admin     (禁止蜘蛛爬取admin目录)
 
            Disallow:/abc.html(禁止蜘蛛爬去abc.html页面)
 
            Disallow:/help.html(禁止蜘蛛爬去help.html页面)
 
   整套语法示范:
 
           User-agent:*
 
           Disallow:/admin(禁止所有搜索引擎的蜘蛛爬取站点的admin这个目录) 
 
  那么接下来我们会遇到一个问题:如果我一个站点,它的某个目录比如说admin目录;我想禁止admin目录里除了/admin/1.php 这个页面,所有页面都禁止搜索引擎的蜘蛛爬取。 如果按照Disallow语法,工作量就相当的大。 如何操作,我们且看第三个语法。
 
  3:allow:(允许语法)  用来定义允许蜘蛛爬取的页面或子目录。
 
  例如:Disallow:/    (禁止蜘蛛爬取网站的所有目录)
 
            Disallow:/admin     (禁止蜘蛛爬取admin目录)
 
            allow:/admin/abc.html(禁止蜘蛛爬去admin目录中的abc.html页面)
 
  从上面我们可以看到allow的出现,解决了我们在屏蔽某些目录的时候,又必须让目录里面的一些文件被蜘蛛抓取的问题。 接下来,又出现一个问题;我们如果要批量屏蔽一些相同属性的文件呢,这些文件在不同的目录;用  Disallow也不适合,工作量大。 我们接下来看第四个语法
 
  4:匹配符”$”和  ”*”
 
   ”$” 匹配行结束符。  ”*” 匹配0或多个任意字符
 
  例如:屏蔽百度蜘蛛以.php结束的所有页面。
 
  User-agent: Baiduspider
 
  Disallow:.php$
 
  或者User-agent: Baiduspider
 
Disallow:/*.php
 
以上就是关于使用robots的一些技巧和语法,不尽之处请各位多多指点。
 
1、allow:(允许语法)用来定义允许蜘蛛爬取的页面或子目录
 
例:禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp
 
User-agent:Baiduspider
 
Disallow:/admin/
 
Allow:/admin/a.asp
 
Allow:/admin/b.asp
 
2、”$” 匹配行结束符 ”*” 匹配0或多个任意字符
 
例:屏蔽百度蜘蛛以.php结束的所有页面
 
User-agent: Baiduspider
 
Disallow:.php$
 
或者User-agent: Baiduspider
 
Disallow:/*.php

从手机浏览器访问《生活宝典》

发表评论 (您的评论将会在审查以后显示) 共有条评论
《生活宝典》的观点、评论、注释都是从公众利益出发,并不是指单个的人、单个的事。
用户: (游客也可以填写名称)
密码: (游客发表此处留空)
识别: 匿名发表
  • 搜索引擎(ROBOTS)蜘蛛人的秘密
  • robots.txt 相关问题的解答
  • robots.txt文件 用法案例
  • robots:搜索引擎公共协议
  • 中国 美国
    俄罗斯 英国
    新加坡 新西兰
    印度 法国
    德国 澳大利亚
    加拿大 葡萄牙
    西班牙 巴西
    日本 阿根廷
    菲律宾 马来西亚
    墨西哥 白俄罗斯
    哈萨克斯坦 乌克兰
    巴基斯坦 古巴
    智利 秘鲁
    乌拉圭 巴拉圭
    玻利维亚 多米尼加
    厄瓜多尔 尼加拉瓜
    沙特 埃及