一般来说,网站的首页和分类页面收录不会有什么问题,除非主导航系统有严重蜘蛛陷阱,或者网站已经被惩罚。大部分网站在结构方面面对的挑战,是使更多最终产品页面被收录。就算尽量把网站结构扁平化,当产品数量巨大时,实际上已经不太可能足够扁平。在这种情况下,要让最终产品页面被收录,有两个策略:一是多入口,二是单入口,在选择上需要谨慎。
多入口指的是通向最终产品页面的链接路径有多条。比如典型电子商务网站的产品页面,一定会出现在相应的分类产品列表中,还可能出现在不同的排序页面上(按价格排序、按热门程度排序、按上架时间排序、按评论数排序等),以及不同的显示方式(按栅格显示、列表显示),也可能出现在相关的品牌或生产商产品列表中,也可能出现在搜索页面或标签聚合页面中,
再比如博客系统,同一篇帖子的链接除了在博客主列表中出现,还会出现在分类存档、按时间存档、标签页面,有的还会出现在作者分类页面。其他 CMS 系统也大多具备这种多入口结构通向最终产品页面。
原因没从分类页面爬行,还可能从其他页面爬行抓取。提供的入口越多,被收录的机会越大。
缺点是这些入口页面本身也占用抓取时间和收录页面名额,而且往往造成很多相似内容。一个给定的网站,权重是大致固定的,搜索引整给的爬行时间是有上限的,所能收录的总页面数也是有上限的。爬行、收录的分类页面、各种排序页面、条件筛选页面品牌生产商页面、搜索标签页面越多,给最终产品剩下的收录名额就越少。要提高整个网站的爬行抓取、收录份额,就要想办法提高网站权重。如果网站权重足够高,能带动的收录页面数远远大于实际页面数,提供多入口就是最佳方式,因为那些冗余的入口页面并不会挤占产品页面的名额。
但是如果网站权重比较低,产品数又很大,就可能需要使用单一入口方法,也就是从首页到产品页面只提供单一通路,通常也就是主导航的分类页面,其他各种排序页面品牌、生产商页面,全部使用JavaScript脚本或NoFollow标签,甚至robots文件,阻挡搜索引擎抓取、收录。对某些网站来说,多入口页面本身数量就很巨大,会占用很多抓取、收录份额。只要网站分类系统、导航及翻页设计合理,提供单一入口也可以达到收录尽量多最终产品页面的目的。
哪种方法最适合还得看网站自身情况,如域名权重、实际总页面数、当前抓取、收录实际情况等。