HITS算法与TrustRank算法的基本概念

HITS是英文Hyperlink-Induced Topic Search 的缩写,意译为“超链诱导主题搜索,HITS算法由Jon Kleinberg 于1997 年提出,并申请了专利:

HITS算法

http://patf.uspto.gov/netacgi/ph-Parser?patentnumber-6,112,202按照 HITS 章法,用户输入查询词后,算法对返回的匹配页面计算两种值,一种称组(Hub Scors),另一种是权减值 (Authority Scores),这两个值是互相依存、互部响的。所谓叔纽值,指的是页而上所有导出链接指向页面的权威值之和。权威值指

是所有导入链接所在页面的枢纽值之和。上面的定义比较拗口,我们可以简单地说,HITS 算法会提炼出两种比较重要的面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页的导入链接。

典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链培其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。

HITS算法是针对特定查询词的,所以称为主题搜索

HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在索引擎中并不常用。不过HITS 算法的思想很可能融入到搜索引擎的索引阶段,也就根据链接关系找出具有枢纽特征或权威特征的页面。

成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引排名因素之一。绝不链接到其他网站的做法,并不是好的SEO方法。

TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank 可以翻译“信任指数”

TrustRank 算法最初来自于2004 年斯坦福大学和准虎的一项联合研究,用来检测级网站,并且于 2006 年申请专利。TustRank算法发明人还发表了一份专门的PDF文代说明TrustRank算法的应用。感兴趣的读者可以在下面这个网址下载PDF文件:

http://www.vldb.org/conf/2004/RS15P3.PDF

TrustRank算法并不是由Google提出的,不过由于Google 所占市场份额最大,而且TrustRank在Google 排名中也是一个非常重要的因素,所以有些人误以为 TrustRank 是Google提出的。更让人糊涂的是,Google曾经把TrustRank 申请为商标,但是TrustRank商标中的 TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。

TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。

基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些 TrustRank 最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离越远,信任指数将依次下降。这样,通过 TrustRank 算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。

计算 TrustRank 值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank 值。挑选种子网站有两种方式,一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为“逆向PR值”比较高。

另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。这些网站才正是 TrustRank 算法最关注的、需要调整排名的网站。那些PR值很低的页面,在没有TrustRank算法时排名也很靠后,计算TrustRank意义就不大了。

根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的TrustRank 值。

计算 TrustRank 随链接关系减少的公式有两种方式。一种是随链接次数衰减,也就是说如果第一层页面 TrustRank 指数是100,第二层页面衰减为90,第三层衰减为80。第二种计算方法是按导出链接数目分配 TrustRank 值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank

值逐步降低。得出网站和页面的 TrustRank 值后,可以通过两种方式影响排名。一种是把传统排名算法挑选出的相关页面,根据 TrustRank 值比较,重新做排名调整。另一种是设定-个最低的 TrustRank 值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排axTRk算法最初是作为检测垃圾的方法,但在现在的搜案与警排名算法ThisRak 微念使用更为广泛,常常影大部分网站的整体排名。TrustRank 算法最万的是贾知贸别,现在在搜索引攀算法中,TrstRak 值也通常表现在域名级别,整名的信任指数越高,整体排名能力就越强。

欢迎大家来到商略网络百度seo保姆级入门教程,本课程会重点会介绍搜索引擎的发展史和各年代技术的更新迭代。而关于SEO的小技巧工具推荐则会在另一个篇幅分类中呈现,是以后广大用户做seo必须了解的知识内容。所谓知其理才能一理通才百理明。以后小编会持续给大家毫无保留的分享小编在商略网络中多年的seo经验,带大家进入seo之门,为以后进入seo之堂奥打下夯实的基础。
友情链接 广东密特斯科技集团有限公司 德仁心集团 佰利顺机械制造有限公司 KITALY

商略业务覆盖:网站建设、电子商务、淘宝天猫视觉营销、外贸网站营销、企业邮箱等,尤其在企业形象网站建设、外贸网站制作领域更是倍受客户青睐。

版权所有商略网络科技有限公司 © 2013-2021,粤ICP备14047267号