有的时候,站长并不希望某些页面被收录(或者说被索引),如复制内容页面。网站上不出现链接,或者使用JavaScript、Flash链接,使用nofollow 等方法都不能保证页面一定不被收录。站长自己虽然没有链接到不想被收录的页面,其他网站上可能由于某种原因出现导入链接,导致页面被抓取和收录。
有的时候不希望某些页面被抓取,如付费内容、还在测试阶段的网站。还有一种很常见的情况,搜索引擎抓取了大量没有意义的页面,如电子商务网站按各种条件过滤、筛选的页面,各种排版格式的页面,这些页面数量庞大,抓取过多会消耗掉搜索引擎分配给这个网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。如果通过检查日志文件发现这些无意义页面被反复大量抓取,想要收录的页面却根本没被抓取过,那应该直接禁止抓取无意义的页面。
抓取和收录(索引)是不同的两个过程。要确保页面不被抓取,需要使用robots文件。要确保页面不被收录,要使用 Noindex Meta Robots 标签。
meta robots标签是页面head 部分meta标签的一种,用于指令搜索引擎禁止索引本页内容,因而也就不会出现在搜索结果中。
Google、必应、雅虎都支持的metarobots 标签如下。
·NOINDEX:告诉蜘蛛不要索引本页面。
NOFOLLOW:告诉蜘蛛不要跟踪本页面上的链接。
·NOSNIPPET:告诉搜索引擎不要在搜索结果中显示摘要文字
·NOARCHIVE:告诉搜索引擎不要显示快照。
。NOODP:告诉搜索引擎不要使用开放目录中的标题和描述
百度的官方说法是目前只支持NOFOLLOW和NOARCHIVE。
meta robots标签内容可以写在一起,以逗号间隔,中间可以有空格,也可以没有多个metarobots内容也可以写成不同标签。