• SEO文章推广! 合作联系qq:122325244 正式全面改版 !免费SEO地址:https://www.seozhan.cn/tool 站长QQ群
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏SEO站长博客吧

[SEO算法]详细介绍PageRank算法从原理到实现的全过程

SEO SEO站长博客 1个月前 (11-01) 52次浏览 已收录 0个评论

一、 PageRank算法概述: PageRank,即网页排名,又称网页级别、Google 左側排名或佩奇排名。 是 Google 创始人拉里·佩奇和谢尔盖·布林于 1997 年构建早期的搜索系统原型时提出的链接分析算法,自从 Google 在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。眼下许多重要的链接分析算法都是在 PageRank算法基础上衍生出来的。PageRank 是 Google 用于用来标识网页的等级/重要性的一种方法,是 Google 用来衡量一个站点的好坏的唯一标准。在揉合了诸如 Title标识和 Keywords标识等全部其他因素之后,Google 通过 PageRank 来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另站点排名获得提升,从而提高搜索结果的相关性和质量。其级别从 0 到 10 级,10 级为满分。PR 值越高说明该网页越受欢迎(越重要)。比如:一个 PR 值为 1 的站点表明这个站点不太具有流行度,而 PR 值为 7 到 10 则表明这个站点很受欢迎(或者说极其重要)。一般 PR 值达到 4,就算是一个不错的站点了。Google 把自己的站点的 PR 值定到 10,这说明 Google 这个站点是很受欢迎的,也能够说这个站点很重要。 二、从入链数量到 PageRank: 在 PageRank 提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这样的入链方法如果一个网页的入链越多,则该网页越重要。早期的非常多搜索引擎也採纳了入链数量作为链接分析方法,对于搜索引擎效果提升也有较明显的效果。 PageRank 除了考虑到入链数量的影响,还參考了网页质量因素,两者相结合获得了更好的网页重要性评价标准。 对于某个互联网网页 A 来说,该网页 PageRank 的计算基于下面两个基本如果: 1、数量如果:在 Web 图模型中,如果一个页面节点接收到的其它网页指向的入链数量越多,那么这个页面越重要。 2、质量如果:指向页面 A 的入链质量不同,质量高的页面会通过链接向其它页面传递很多其它的权重。所以越是质量高的页面指向页面 A,则页面 A 越重要。 利用以上两个如果,PageRank算法刚開始赋予每一个网页同样的重要性得分,通过迭代递归计算来更新每一个页面节点的 PageRank 得分,直到得分稳定为止。 PageRank 计算得出的结果是网页的重要性评价,这和用户输入的查询是没有不论什么关系的,即算法是主题无关的。如果有一个搜索引擎,其相似度计算函数不考虑内容相似因素,全然採用 PageRank 来进行排序,那么这个搜索引擎的表现是什么样子的呢?这个搜索引擎对于随意不同的查询请求,返回的结果都是同样的,即返回 PageRank 值最高的页面。 三、PageRank 算法原理: 1、基本概念 先了解几个基本概念,一遍后面内容理解 Ⅰ、出链 如果在网页 A 中附加了网页 B 的超链接 B-Link,用户浏览网页 A 时可以点击 B-Link 然后进入网页 B。上面这种 A 附有 B-Link 这种情况表示 A 出链 B。可知,网页 A 也可以出链 C,如果 A 中也附件了网页 C 的超链接 C-Link。 Ⅱ、入链 上面通过点击网页 A 中 B-Link 进入 B,表示由 A 入链 B。如果用户自己在浏览器输入栏输入网页 B 的 URL,然后进入 B,表示用户通过输入 URL 入链 B Ⅲ、无出链 如果网页 A 中没有附加其他网页的超链接,则表示 A 无出链 Ⅳ、只对自己出链 如果网页 A 中没有附件其他网页的超链接,而只有他自己的超链接 A-Link,则表示 A 只对自己出链 Ⅴ、PR 值 一个网页的 PR 值,概率上理解就是此网页被访问的概率,PR 值越高其排名越高。 下面给出计算 PR 值可能遇到的几种不同情况: case1:网页都有出入链 此种情况下的网页 A 的 PR 值计算公式为: case2:存在没有出链的网页 网页 C 是没有出链。因为 C 没有出链,所以对 A,B,D 网页没有 PR 值的贡献。PageRank 算法的策略:从数学上考虑,为了满足 Markov 链,设定 C 对 A,B,C,D 都有出链(也对他自己也出链~)。你也可以理解为:没有出链的网页,我们强制让他对所有的网页都有出链,即让他对所有网页都有 PR 值贡献。
此种情况 PR(A)的计算公式: case3:存在只对自己出链的网页 C 是只对自己出链的网页。 此时访问 C 时,不会傻乎乎的停留在 C 页面,一直点击 C-Link 循环进入 C,即 C 网页只对自己的网页 PR 值有贡献。正常的做法是,进入 C 后,存在这种情况:在地址输入栏输入 A/B/C/D 的 URL 地址,然后跳转到 A/B/C/D 进行浏览,这就是 PageRank 算法解决这种情况的策略:设定存在一定概率为α,用户在地址栏输入 A/B/C/D 地址,然后从 C 跳转到 A/B/C/D 进行浏览。 此时 PR(A)的计算公式为: 一般取值α=0.85 Ⅵ、算法公式: 注:Mpi 是有出链到 pi 的所有网页集合,L(pj)是有网页 pj 的出链总数,N 是网页总数,α一般取值为 0.85 所有网页 PR 值同时计算需要迭代计算:一直迭代计算,停止直到下面 2 情况之一发生:每个网页的 PR 值前后误差 dleta_pr 小于自定义误差阈值,或者迭代次数超过了自定义的迭代次数阈值
三、PR 值计算方法: 1、几个基本公式 2、幂迭代法 先对 P0 赋随机初值,然后通过上面公式进行迭代计算,直到满足条件停止迭代计算:一直迭代计算,停止直到下面 2 情况之一发生:每个网页的 PR 值前后误差 dleta_pr 小于自定义误差阈值,或者迭代次数超过了自定义的迭代次数阈值 3、特征值法 Markov Chain 收敛时,存在:
4、代数法 Markov Chain 收敛时,存在:
可以通过上面公式计算出来 PR 值矩阵。


SEO站长博客 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:[SEO算法]详细介绍PageRank算法从原理到实现的全过程
喜欢 (0)
[h4ck3st@126.com]
分享 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址