夏北风最近一直忙着建网站,一边看书,一边实践。在这个过程当中,我碰到了两处robots,一处是位于网页头部中的<robots>标签,另一处是存在于网站根目录的robots.txt文件,觉得有必要把robots的问题讲清楚,希望能对建站感兴趣的朋友有一些帮助。
网页头部中的<robots>标签
网页头部中的<robots>标签主要用于限制搜索引擎对网页相关内容的抓取。如果网页中不添加<robots>标签,搜索引擎就会认为该网页下的所有内容都是允许抓取的。对此,夏北风建议,除非是保密内容的网页,否则不要使用<robots>标签。例如网站的管理员登录页面,考虑到安全性,我们肯定不希望这个网页被搜索引擎收录,需要注意的是,如果你使用错误或者使用不当,将会直接把搜索引擎蜘蛛拒之门外,你的网页也很有可能不被搜索引擎收录。下面,夏北风将列举出<robots>标签的4种常用表示方法:
①代码:<meta name=”robots” content=”index,follow”>或者<meta name=”robots” content=”all”>。
代码作用:索引本页面,跟踪本页面上的其他链接。
②代码:<meta name=”robots” content=”noindex,follow”>。
代码作用:不索引本页面,但是可以跟踪本页面上的其他链接。
③代码:<meta name=”robots” content=”index,nofollow”>。
代码作用:索引本页面,但是不跟踪本页面上的其他链接。
④代码:<meta name=”robots” content=”noindex,nofollow”>或者<meta name=”robots” content=”none”>。
代码作用:不索引本页面,也不跟踪本页面上的其他链接。
上面是4种常用的使用方法,基本上可以满足大家的需求了。
网站根目录的robots.txt文件
你的网站是否需要
robots.txt文件?
要判断你的网站是否需要robots.txt文件,可以考虑以下几个问题:
a.网站是否存在不希望被搜索引擎列出来的页面或目录,比如E-mail地址或电话簿?
b.是否不希望某些搜索引擎显示自己的网站?
c.是否有会给搜索引擎蜘蛛带来问题的某些动态页面或者程序功能,比如让蜘蛛循环抓取?
d.网站是否包含重复内容的网页?
......
......
......
如果这些问题的答案是否定的,你就不需要robots.txt文件。如果有一个问题的答案是肯定的,你就需要robots.txt文件。
robots.txt文件的创建与语法。
robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,
robots.txt文件是你对搜索引擎制定的一个如何索引你的网站的规则。
robots.txt文件是非常简单的文本文件。需要注意的是,robots.txt文件必须放置在一个
站点的根目录下,而且文件名必须全部小写。
robots.txt文件的基本语法只有两条,第一条为User-Agent,即搜索引擎蜘蛛的名称;第二条为Disallow,即要阻止蜘蛛查看的内容。
下面以淘宝网的robots.txt文件为例:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
上面的代码表示禁止百度蜘蛛抓取网站的任何部分。
注意事项。
①有多个子域名的网站必须在每个子域名下都建立一个robots.txt文件。
②一般网站中不需要蜘蛛抓取的文件有/cgi-bin/、/wp-admin/、/cart/、/scripts/之类的目录以
及其他包含敏感数据的内容(如E-mail地址和电话号码)。
③robots.txt文件是一个空白的文本文档都可以,上传一个空白的robots.txt文件,至少不会
导致一条404信息的产生。网站的权重是由很多条件所积累的,404信息就是很重要的一
条,因此不得不重视。
④有些情况下,我们的网站是使用Rewrite方式伪静态的,因此有两个访问地址。这时为了
节约服务器资源,我们就可以使用robots.txt文件来防止搜索引擎抓取动态页面,只允许
它抓取伪静态的页面。
看完这篇文章后,有任何不懂的问题可以和
夏北风交流。
--
FROM 124.90.205.*