PR算法对数基数的猜测及其在网站价值分析中的应用

谷歌的PR值曾经是衡量一个网站价值最简单有效的数据之一,虽然已经停止更新一年多了,但是仍然可以通过之前的PR值结合PAGERANK算法来初步分析一个网站的价值,在网站价值分析的一部分里,比起通过以流量为基准的第三方百度权重,我个人认为PR值在权重分析方面更加准确。

谷歌的PAGERANK算法一直是我最感兴趣的搜索引擎算法,也将会是谷粉搜搜的设计里最重要的算法之一。我曾经跟踪调试过开源搜索引擎Nutch对PAGERANK算法的完整实现,在Nutch的JAVA实现里,可以明显跟踪到PR算法的迭代过程,有兴趣的朋友可以看看相关的源代码。

虽然PR是公开的排序算法,不过我们在浏览器工具栏所看到的PR值并不是一个网站实际的权重分数,而是一个经过对数取值后的非线性数字,假设工具栏PR值的为r, 对数基数为n,实际PR权重分数为y,则一个网站的实际PR权重分数计算公式为:y=n的r次方 。这也是一个PR5的网站跟一个PR6的网站差距不是差一级而是差了很大倍数的权重比例的原因。虽然工具栏的PR值已经可以对网站的价值进行简单的评估,不过通过对PR算法的对数基数的实际测试并且推算,可以更接近地获得一个网站的实际PR权重分数。

要想试图猜测出PR算法的对数基数就必须到国外的网站论坛搜集资料,国内在做搜索引擎算法的研究的网站极其稀少。有一个著名的国外搜索引擎优化网站MOZ相信很多人有过耳闻,它有一个同样著名的mozrank,其思想和PR是非常接近的,在这个网站上有人曾经公布过PR和MOZRANK的对比差异:mozrank-vs-pagerank
(图片来自http://moz.com/blog/mozrank-and-pagerank-for-metrics-driven-seo),并且我在这个网站上也看到了一些人在分析讨论PR算法的对数基数问题,他们得出的结论是PR的对数基数值在6-7附近,以我后面的实际测试结果来看,这个值已经相当准确了,不过略微有一点点偏高。搜索类似的资料欢迎使用谷歌,而且使用谷歌图片效果会比网页直接搜索更快更精准,或者也可以使用谷粉搜搜的图片搜索试试,我就是用谷粉搜搜的图片搜索直接搜索:http://www.gfsoso.com/image?q=pagerank+mozrank+compare找到这些资料的。

在我实际的测试里,我大概使用了1000多个不同级别PR值(PR0-PR9)的网站进行不同的链接分布,以验证是否可以从PR0开始,根据我自己的理论推测获取各种级别的PR值,最后的结果,我大概获得了10来个PR6的网站,几十个PR5以及几百个的PR4网站,没能获得更高PR值的网站除了因为我并没有足够的资源和PR算法本身并不是这么简单的一个公式以外(实际测试表明除了链接关系以外,信任度传递,做站时间,原创度都非常有关),也跟我的理解有限,刚开始学习做网站技术有关。我最后获得结论是PR算法的基数的值大概在5-6之间,数字越大对网站的价值评估会更偏高一些,考虑到PR算法涉及到了不少其他因素,因此我一般是以5作为PAGERANK算法的对数基数来参考的。

无论PR值是否停止更新以及是否已经只是排名算法的一个小因素,即使在昨天(2015年1月18日),我跟踪一些测试网站的时候,仍然能够看到谷歌对高PR的网站的高度青睐。而且百度的排序算法的超链分析的思想和PR其实是很接近的。

本文由谷粉搜搜博客(http://www.jwss.cn)的cjx原创,本人目前正在学习搜索引擎算法,记录一些微薄的个人心得,转载请注明出处 ,同时也欢迎到谷粉搜搜搜索各种资料。

4 条评论

发表评论

电子邮件地址不会被公开。

  • dfbb 2015 年 01 月 18 日 15:13 星期日 回复

    RE

  • 匿名 2015 年 01 月 26 日 19:17 星期一 回复

    我发现老大很牛叉,真的。习惯用google了,发现百度就是个搜索流氓。现在360快搜做的也挺好,所搜技术的东西和google的结果几乎一致,但是搜索中文关键字又有点跑远了。 谷粉搜搜用了三个多月了,本来以为会被政府屏蔽,但是管理者没有牵扯到任何敏感的东西,为技术和学术提供了这个,真的很好。要是百度还在中国大行其道,要是大部分大学生还用百度,觉的我们的技术是赶不上国外了。

    • cjx 2015 年 01 月 26 日 19:52 星期一 回复

      感谢关注呀!

  • 匿名 2015 年 01 月 29 日 19:45 星期四 回复

    good

PR算法对数基数的猜测及其在网站价值分析中的应用_GFSOSO_谷粉搜索_九尾搜搜GLGOO西南科技大学教务处|潍坊学院聊城