为了禁止搜索引擎抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
在这里,META NAME=”ROBOTS” 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如 META NAME=”Googlebot”、META NAME=”Baiduspide” 等。CONTENT 部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
- INDEX 命令:告诉搜索引擎抓取这个页面
- FOLLOW 命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
- NOINDEX 命令:告诉搜索引擎不允许抓取这个页面
- NOFOLLOW 命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,我们就有了一下的四种组合
- <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>:可以抓取本页,而且可以顺着本页继续索引别的链接
- <META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>:不许抓取本页,但是可以顺着本页抓取索引别的链接
- <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>:可以抓取本页,但是不许顺着本页抓取索引别的链接
- <META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>:不许抓取本页,也不许顺着本页抓取索引别的链接。
这里需要注意的是,不可把两个对立的反义词写到一起,例如
<META NAME=”ROBOTS” CONTENT=”INDEX,NOINDEX”>
或者直接同时写上两句
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
这里有一个简便的写法,如果是
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
的形式的话,可以写成:
<META NAME=”ROBOTS” CONTENT=”ALL”>
如果是
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
的形式的话,可以写成:
<META NAME=”ROBOTS” CONTENT=”NONE”>
当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知,禁止建立网页快照的命令是 noarchive,那么我们就可以写成如下的形式:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW,noarchive”>
如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:
<META NAME=” Baiduspider” CONTENT=”INDEX,FOLLOW,noarchive”>
如果在元标记中不写关于蜘蛛的命令,那么默认的命令即为如下
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW, archive”>
因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。
答案来自黎硕