息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关 性,这是有意义的。有了HTML 标记后,情况还可能进一步改善,例如在同一篇 文档中,之间的信息很可能就比在之间的信息更重要。 特别地,HTML 文档中所含的指向其他文档的链接信息是人们近几年来特别关注 的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重 要的作用。例如“北大学报”这几个字在北京大学学报社会科学版的主页上是没 有的,因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作为结果。但 是北京大学主页上是用“北大学报(社)”作为链接信息指向了北京大学学报社会 科学版的主页。因此在很好利用链接信息的搜索引擎中应该能返回北京大学学报 社会科学版的主页。 4. 网页重要程度的计算 搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的 顺序是很重要的一个问题。由于面对各种各样的用户,加之查询的自然语言风格, 对同样的q 返回相同的列表肯定是不能使所有提交q 的用户都满意的(或者都达 0 0 到最高的满意度)。因此搜索引擎实际上追求的是一种统计意义上的满意。人们认 为Google 目前比天网好,是因为在多数情况下前者返回的内容要更符合用户的需 要,而不是所有情况下都如此。如何对查询结果进行排序有很多因素需要考虑, 后面将有深入的讨论。这里只是概要解释在预处理阶段可能形成的所谓“重要性” 因素。顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的。如何讲 一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法 就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网 页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功 体现[Page, et al.,1998]。除此以外,人们还注意到网页和文献的不同特点,即一些 网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些 网页则被大量的其他网页链接。从某种意义上讲,这形成了一种对偶的关系,这 种关系使得人们可以在网页上建立另外一种重要性指标[Kleinberg,1998]。这些指 标有的可以在预处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服 务阶段最终形成结果排序的部分参数。 第四节 查询服务 如上述,从一个原始网页集合S 开始,预处理过程得到的是对S 的一个子集 的元素的某种内部表示,这种表示构成了查询服务的直接基础。对每个元素来说, 这种表示至少包含如下几个方面: 本文出自:亿恩科技【www.enkj.com】
服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]
|