文章目录

搜索引擎的两大主要任务是:匹配和排名。在实际中,搜索引擎将匹配和排名组合成一个流程以实现一致性。但这两个阶段在概念上是独立的,因此我们会假设在排名开始前,匹配已经完成。


匹配与排名图1

索引的概念是所有搜索引擎背后最基础的思想。超链接把戏:所有网页的初始权重值都是1,但如果一个网页有链入连接,在计算该网页权重时就要加入指向其的网页的权重。也就是说,如果x和y网页链向z网页,那么z网页的权重就是x网页和y网页权重相加的值。
权重把戏:可以把超链接把戏和权重把戏结合起来。来自高“权重”网页的链接排名要比来自低“权重”网页链接的排名高。
随机访问者把戏:结合了超链接及权重把戏令人喜爱的属性,但在出现超链接循环时也行得通。


随机访问者把戏图2

网络垃圾:充斥在搜索结果中无用的网页。
pagerank算法:计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分钟后,跳转到该网页所指向的链接,这样漫无目的地在网页上跳来跳去,PageRank就是估计这个悠闲的上网者分布在各个网页上的概率。
pagerank简单理解
pagerank深入分析

文章目录