标题:我对google排名算法理解

-------------------------------------------------------------------------------------------------------------------------------

时间:2007/7/30 20:23:47

-------------------------------------------------------------------------------------------------------------------------------

内容:

传统利用asp语言查询文章,只有关键字以完整的形式,在文章中出现。这篇文章才会被检索出来。例如搜索:游戏 那么检索出来的 只有含有游戏这2个字的文章才会出来。但是游戏包括很多种,电脑游戏,儿童游戏,而电脑游戏有魔兽世界,完美世界。但是恨遗憾 用传统的方法死扣关键字就不能把魔兽世界,完美世界搜索出来。

所以我们需要一种新的方法来计算关键字和文章的相关度,让搜索出来的结果更加符合我们的思维---游戏和魔兽世界是相关联的。现在就以游戏和魔兽世界为例子。他们的相关度肯定不如游戏和电脑游戏相关度高。现在我们的工作就是把这个相关性量化,就可以让我们搜索出来的结果 按照相关度数值大小从大到小排列出来。这就是google排名的基本原理了,但是最后的排名是相关度与网页受欢迎度综合的结果。这是后话。

现在我门来看相关度的量化:一篇文章关键字出现次数多比出现少的相关度高,但是有的文章几千个词关键词出现了2次,而有的文章几百个词关键字也出现了2次,显然 这2篇文章与关键词相关度不能化等号。就要引入词频TF(term frenquency)用关键词重复次数除以文章数(这里还有一个说法是关键词密度)需要指出的是 我们搜索 一般都是关键词的组合形式       例如  十口青草的博客  这里有 十口青草 ,的,博客,3个关键词而每个关键词按照我上面指出的关键词的扩展思路 每个关键词又可以变成一系列和关键词相关的词组 这样  搜索一个 组合关键词 返回的结果   不再是只出现字面符合的           这就是变成了一个矩阵           十口青草 (和十口青草相关的词)             的      (和 的 相关的词)        博客 (和博客相关的词)的求值

而关键词间 也是有差异的   十口青草 和 的  的搜索结果就是大相径庭 我们用数据库里所有文章数除以结果数    专业词 逆文本频idf(inverse document frenquecy)来忽略在搜索引擎里大量出现的 不能缩小范围的词 我们给它取名叫 相对权重

这样 我门解决了 矩阵列的计算  我们再来讨论行的计算  既和关键词象关联的的词的计算,用搜索出来的文章的重复度来确定他们的关联程度

假设搜索 博客      的文章 集合是a  搜索  blog集合是b      a交b除以 a并b来表示重复度 用图片我想可以更加直观查看更多精彩图片

用蓝色区域除以红黄蓝区域的面积的比值 来表示这2个椭圆的相似度 如果他们重合了 比值就是1了

这样 这个矩阵就可以解决了

得到了内容上的排名 当然最后还有很多因素再里面才能得到最后的排名

我要指出的是 文章的权重对排名是非常重要的 尽量找搜索出来结果少点的  最好是原创的 当然 你也不能为了是唯一的  就乱写东西上去

但是结构语法符合  这来对提高网站排名非常游泳  定期的更新 写写软文都是不错的悬着 毕竟上面讲的是纯概念的东西 只是加深你对算法的lijie对

真正提高排名的具体方法没有提高



 

  

传统利用asp语言查询文章,只有关键字以完整的形式,在文章中出现。这篇文章才会被检索出来。例如搜索:游戏 那么检索出来的 只有含有游戏这2个字的文章才会出来。但是游戏包括很多种,电脑游戏,儿童游戏,而电脑游戏有魔兽世界,完美世界。但是恨遗憾 用传统的方法死扣关键字就不能把魔兽世界,完美世界搜索出来。

所以我们需要一种新的方法来计算关键字和文章的相关度,让搜索出来的结果更加符合我们的思维---游戏和魔兽世界是相关联的。现在就以游戏和魔兽世界为例子。他们的相关度肯定不如游戏和电脑游戏相关度高。现在我们的工作就是把这个相关性量化,就可以让我们搜索出来的结果 按照相关度数值大小从大到小排列出来。这就是google排名的基本原理了,但是最后的排名是相关度与网页受欢迎度综合的结果。这是后话。

现在我门来看相关度的量化:一篇文章关键字出现次数多比出现少的相关度高,但是有的文章几千个词关键词出现了2次,而有的文章几百个词关键字也出现了2次,显然 这2篇文章与关键词相关度不能化等号。就要引入词频TF(term frenquency)用关键词重复次数除以文章数(这里还有一个说法是关键词密度)需要指出的是 我们搜索 一般都是关键词的组合形式       例如  十口青草的博客  这里有 十口青草 ,的,博客,3个关键词而每个关键词按照我上面指出的关键词的扩展思路 每个关键词又可以变成一系列和关键词相关的词组 这样  搜索一个 组合关键词 返回的结果   不再是只出现字面符合的           这就是变成了一个矩阵           十口青草 (和十口青草相关的词)             的      (和 的 相关的词)        博客 (和博客相关的词)的求值

而关键词间 也是有差异的   十口青草 和 的  的搜索结果就是大相径庭 我们用数据库里所有文章数除以结果数    专业词 逆文本频idf(inverse document frenquecy)来忽略在搜索引擎里大量出现的 不能缩小范围的词 我们给它取名叫 相对权重

这样 我门解决了 矩阵列的计算  我们再来讨论行的计算  既和关键词象关联的的词的计算,用搜索出来的文章的重复度来确定他们的关联程度

假设搜索 博客      的文章 集合是a  搜索  blog集合是b      a交b除以 a并b来表示重复度 用图片我想可以更加直观查看更多精彩图片

用蓝色区域除以红黄蓝区域的面积的比值 来表示这2个椭圆的相似度 如果他们重合了 比值就是1了

这样 这个矩阵就可以解决了

得到了内容上的排名 当然最后还有很多因素再里面才能得到最后的排名

我要指出的是 文章的权重对排名是非常重要的 尽量找搜索出来结果少点的  最好是原创的 当然 你也不能为了是唯一的  就乱写东西上去

但是结构语法符合  这来对提高网站排名非常游泳  定期的更新 写写软文都是不错的悬着 毕竟上面讲的是纯概念的东西 只是加深你对算法的lijie对

真正提高排名的具体方法没有提高