谷歌搜索引擎背后的数学(2)

思路虽然有了，具体计算却并非易事，因为按照这种思路，想要知道一个网页 Wi 的排序，不仅要知道有多少网页链接了它，而且还得知道那些网页各自的排序——因为来自排序靠前网页的链接更有分量。但作为互联网大家庭的一员， Wi 本身对其它网页的排序也是有贡献的，而且基于来自排序靠前网页的链接更有分量的原则，这种贡献与 Wi 本身的排序也有关。这样一来，我们就陷入了一个 “先有鸡还是先有蛋” 的循环：要想知道 Wi 的排序，就得知道与它链接的其它网页的排序，而要想知道那些网页的排序，却又首先得知道 Wi 的排序。

为了打破这个循环，佩奇和布林采用了一个很巧妙的思路，即分析一个虚拟用户在互联网上的漫游过程。他们假定：虚拟用户一旦访问了一个网页后，下一步将有相同的几率访问被该网页所链接的任何一个其它网页。换句话说，如果网页 Wi 有 Ni 个对外链接，则虚拟用户在访问了 Wi 之后，下一步点击那些链接当中的任何一个的几率均为 1/Ni。初看起来，这一假设并不合理，因为任何用户都有偏好，怎么可能以相同的几率访问一个网页的所有链接呢？但如果我们考虑到佩奇和布林的虚拟用户实际上是对互联网上全体用户的一种平均意义上的代表，这条假设就不象初看起来那么不合理了。那么网页的排序由什么来决定呢？是由该用户在漫游了很长时间——理论上为无穷长时间——后访问各网页的几率分布来决定，访问几率越大的网页排序就越靠前。

为了将这一分析数学化，我们用 pi(n) 表示虚拟用户在进行第 n 次浏览时访问网页 Wi 的几率。显然，上述假设可以表述为 (请读者自行证明)：

pi(n+1) = Σj pj(n)pj→i/Nj

这里 pj→i 是一个描述互联网链接结构的指标函数 (indicator function)，其定义是：如果网页 Wj 有链接指向网页 Wi，则 pj→i 取值为 1，反之则为 0。显然，这条假设所体现的正是前面提到的佩奇和布林的排序原则，因为右端求和式的存在表明与 Wi 有链接的所有网页 Wj 都对 Wi 的排名有贡献，而求和式中的每一项都正比于 pj，则表明来自那些网页的贡献与它们的自身排序有关，自身排序越靠前 (即 pj 越大)，贡献就越大。

为符号简洁起见，我们将虚拟用户第 n 次浏览时访问各网页的几率合并为一个列向量 pn，它的第 i 个分量为 pi(n)，并引进一个只与互联网结构有关的矩阵 H，它的第 i 行 j 列的矩阵元为 Hij = pj→i/Nj，则上述公式可以改写为：

pn+1 = Hpn

这就是计算网页排序的公式。

熟悉随机过程理论的读者想必看出来了，上述公式描述的是一种马尔可夫过程 (Markov process)，而且是其中最简单的一类，即所谓的平稳马尔可夫过程 (stationary Markov process)，而 H 则是描述马尔可夫过程中的转移概率分布的所谓转移矩阵 (transition matrix)。不过普通马尔可夫过程中的转移矩阵通常是随机矩阵 (stochastic matrix)，即每一列的矩阵元之和都为 1 的矩阵 (请读者想一想，这一特点的 “物理意义” 是什么？)。而我们的矩阵 H 却可能有一些列是零向量，从而矩阵元之和为 0，它们对应于那些没有对外链接的网页，即所谓的 “悬挂网页” (dangling page)。

上述公式的求解是简单得不能再简单的事情，即：

pn = Hnp0

其中 p0 为虚拟读者初次浏览时访问各网页的几率分布 (在佩奇和布林的原始论文中，这一几率分布被假定为是均匀分布)。