和标题的优化一样,在正文中关键位置融入关键词是基础,同时还要考虑到语义分析、用户体验等因素。
词频和密度
正文中的关键词牵扯到几个概念。一个是词频,也就是关键词出现的次数。另一个是关键词密度,也就是关键词出现次数除以页面可见文字总词数,或者说关键词密度是规范化后(考虑正文长度后)的词频。
判断页面与关键词的相关性时,最简单的逻辑是关键词出现次数越多,也就是词频越高,页面与这个关键词越相关。但词频概念没有考虑内容长度。页面正文如果是 1000个词,显然关键词词频很容易比 100个词的页面高,但并不必然比100 个词的页面更相
关。用关键词出现次数除以总词数,得到关键词密度,是更合理的相关性判断标准,
现在的搜索引擎算法已经比简单词频或密度计算复杂得多。站长可以很容易地人为提高词频和密度,页面价值却不一定更高。所以页面排名与词频和密度已经没有直接联系,SEO人员不必太在意。
般来说,篇幅不大的页面出现两三次关键词就可以了,篇幅比较长的页面出现4~6次也已经足够,千万不要堆积关键词。
初学SEO的人常常问关键词密度是多少最合适。其实关键词密度在现在的搜索引擎算法中已经是一个不太相关的概念,SEO 人员完全不必关注。观察排名在前面的页面,我们会发现其中既有密度低到1%或2%的页面,也有高到20%的页面。只要自然写作页面中必然出现几次关键词,这就已经完成优化了。
另一个与正文关键词出现有关的概念是 TF-IDF。TF就是上面说的词频(termfrequency),IDF是逆文件频率(inverse documentfrequency)。针对一个特定关键词,句含这个关键词的文件数量除以数据库文件总数,得到这个词的文件频率。反过来,文件总数除以包含这个词的文件数量(通常真正计算时还要取对数),就得到逆文件频率。所以语言中越常见的词,包含这个词的文件数越多,文件频率也就越高,逆文件频率越低。
逆文件频率代表了这个词的语义重要性或者说区别文件的能力。举例说,“的”在几乎所有文件中出现,文件频率极高,逆文件频率极低,也就是“的”这个词的语义重要性很低,几乎无法用来代表和区别文件内容。“搜索引擎”这个词只出现在一小部分文件中,逆文件频率要高得多,对文件内容来说重要性要高得多。
搜索引擎在判定页面与什么关键词更相关时,不是单纯考虑词频,而是计算词频乘以逆文件频率,也就是TF-IDF。逆文件频率低,即使词频高,页面与关键词相关性还是不高。举个例子,如果要优化“新加坡旅游”这个词组,在Google 搜索“新加坡”返回85200000个结果,搜索“旅游”返回342000000个结果,包含“新加坡”的文件数远小于包含“旅游”的文件数,Google 数据库的文件总数是固定的,所以“新加坡”的逆文件频率大于“旅游”。或者换句话说,“新加坡”这个词在区别、辨识文件能力上比“旅游”这个词要高。在优化文案时,增加“旅游”出现次数就没有增加“新加坡”次数更有效。
当然,这只是理论上的推论。真实的搜索引擎在计算相关性时比简单计算 TF-IDF复杂得多,SEO或编辑在写页面正文时,完全没必要考虑这么多。还是那句话,只要自然写作,关键词必然会自然融入,就足够了。