始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

搜索引擎原理(八)

发布时间:  2012/9/3 11:02:19
  息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关 性,这是有意义的。有了HTML 标记后,情况还可能进一步改善,例如在同一篇 文档中,之间的信息很可能就比在之间的信息更重要。 特别地,HTML 文档中所含的指向其他文档的链接信息是人们近几年来特别关注 的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重 要的作用。例如“北大学报”这几个字在北京大学学报社会科学版的主页上是没 有的,因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作为结果。但 是北京大学主页上是用“北大学报(社)”作为链接信息指向了北京大学学报社会 科学版的主页。因此在很好利用链接信息的搜索引擎中应该能返回北京大学学报 社会科学版的主页。 4. 网页重要程度的计算 搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的 顺序是很重要的一个问题。由于面对各种各样的用户,加之查询的自然语言风格, 对同样的q 返回相同的列表肯定是不能使所有提交q 的用户都满意的(或者都达 0 0 到最高的满意度)。因此搜索引擎实际上追求的是一种统计意义上的满意。人们认 为Google 目前比天网好,是因为在多数情况下前者返回的内容要更符合用户的需 要,而不是所有情况下都如此。如何对查询结果进行排序有很多因素需要考虑, 后面将有深入的讨论。这里只是概要解释在预处理阶段可能形成的所谓“重要性” 因素。顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的。如何讲 一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法 就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网 页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功 体现[Page, et al.,1998]。除此以外,人们还注意到网页和文献的不同特点,即一些 网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些 网页则被大量的其他网页链接。从某种意义上讲,这形成了一种对偶的关系,这 种关系使得人们可以在网页上建立另外一种重要性指标[Kleinberg,1998]。这些指 标有的可以在预处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服 务阶段最终形成结果排序的部分参数。 第四节 查询服务 如上述,从一个原始网页集合S 开始,预处理过程得到的是对S 的一个子集 的元素的某种内部表示,这种表示构成了查询服务的直接基础。对每个元素来说, 这种表示至少包含如下几个方面:
本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线