分类:搜索引擎优化技术

PR算法对数基数的猜测及其在网站价值分析中的应用

谷歌的PR值曾经是衡量一个网站价值最简单有效的数据之一,虽然已经停止更新一年多了,但是仍然可以通过之前的PR值结合PAGERANK算法来初步分析一个网站的价值,在网站价值分析的一部分里,比起通过以流量为基准的第三方百度权重,我个人认为PR值在权重分析方面更加准确。 谷歌的PAGERANK算法一直是我最感兴趣的搜索引擎算法,也将会是谷粉搜搜的设计里最重要的算法之一。我曾经跟踪调试过开源搜索引擎Nutch对PAGERANK算法的完整实现,在Nutch的JAVA实现里,可以明显跟踪到PR算法的迭代过程,有兴趣的朋…

继续阅读
从搜索引擎的分词算法浅谈做站关键字选择

在搜索引擎的输入处理中,中文字符串是由一个个含有各种词性的分词组成的,不同的词性在搜索引擎的算法里有着不同的优先级,极端的例子如“的”(助词),“我”(代词)这样的词和“谷粉搜搜”(名词)这样的名词的权重是完全不同的,搜索引擎会认为像“的”之类的助词在判断页面相关性的作用微小,在搜索结果的排序时候这类词通常不是作为主要的排序判断依据的,因此在选择页面关键词的时候,可以尽量选择以名词,英文字符串等权重明显偏高的分词为主的关键字。 在面对以制作一个有几百万高质量内容规模为目标的内容网站时,为了让搜索引擎能够更完…

继续阅读
从搜索引擎的排序算法浅谈做站的方向

最近在思考有关搜索引擎排序的一些内容,有一些不成熟的想法,拿出来分享讨论。 搜索引擎在页面爬行,正文内容提取,分词建立倒排索引以后,将对检索关键字进行分词,并提取出词性为名词,字符串等比较重要的词到分词索引库取交集,即会得到一个包含具备基本相关度的页面文件集合,之后将会进入页面排序部分。 在页面排序部分,有两个部分是特别重要的,一个是页面在搜索引擎里面的权重分数,还有一个是重要词性的分词出现在页面的位置(标题,有效正文的最开始区域等),我认为这两个部分的分数基本上决定了大体的排名位置,其中页面的权重分数所占…

继续阅读