始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

搜索引擎的两种基本抓取策略

发布时间:  2012/9/11 11:18:12
大家好,这里是雅安seo优化博客。今天我们来说说搜索引擎的收录过程中所采取的收录抓取策略。
  蜘蛛在完成对robots.txt文件的访问之后便会开始对所进入的页面进行判断是否符合收录标准,如果符合,那么提取其内容和链接。这个页面抓取完成之后,还没完,蜘蛛还会顺着所提取的链接探索下去,从这个链接爬到下一个页面,又从下一个页面上的链接爬到再下一个页面......
  由于互联网上的页面链接结构异常复杂,蜘蛛需要采用一定的策略才能爬行到网上的所有页面。最简单的搜索引擎抓取策略有两种:
  1、深度优先策略
  
 
 
  如上图,简单点来说就是沿着一条路线垂直深入的爬行下去,直到完成任务。
  2、广度优先策略
  
 
 
  如上图,简单说就是先把指定的一个页面上的所有链接爬行一遍,然后再从每条链接深入同样平行地进行爬行。
  在实际中,这两种策略是同时发生的,理论上只要给予足够的时间,搜索引擎蜘蛛就可以爬完所有的页面。但是蜘蛛的带宽资源、时间并不是无限的,所以蜘蛛只能爬行一定的时间,权重越高的网站自然爬行的时间越长。
  搜索蜘蛛的目的就是探索到有价值的页面并收录,这就是为什么权重高的站爬行时间长,抓取度深的原因。所以我们建议新站的网站链接层次不要过深,免得蜘蛛在短时间内爬行不到。
在收索引擎蜘蛛爬行完毕之后,便会把搜集到的网页数据交给数据分析系统,整个收录过程便结束了。好了,今天的seo基础就到这里。 
本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线