文章内容

网络爬虫与Web安全

发布时间: 2012/8/25 20:15:51

网络爬虫概述

网络爬虫(Web Crawler)，又称网络蜘蛛(Web Spider)或网络机器人(Web Robot)，是一种按照一定的规则自动抓取万维网资源的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。不断优化的网络爬虫技术正在有效地应对这种挑战，为高效搜索用户关注的特定领域与主题提供了有力支撑。网络爬虫也为中小站点的推广提供了有效的途径，网站针对搜索引擎爬虫的优化曾风靡一时。

传统网络爬虫从一个或若干个初始网页的URL(Universal Resource Locator统一资源定位符)开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定条件停止抓取。现阶段网络爬虫已发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法综合应用的智能工具。

网络爬虫的安全性问题

由于网络爬虫的策略是尽可能多的“爬过”网站中的高价值信息，会根据特定策略尽可能多的访问页面，占用网络带宽并增加Web服务器的处理开销，不少小型站点的站长发现当网络爬虫光顾的时候，访问流量将会有明显的增长。恶意用户可以利用爬虫程序对Web站点发动DoS攻击，使Web服务在大量爬虫程序的暴力访问下，资源耗尽而不能提供正常服务。恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途，主要表现在以下几个方面：

1)搜索目录列表

互联网中的许多Web服务器在客户端请求该站点中某个没有默认页面的目录时，会返回一个目录列表。该目录列表通常包括可供用户点击的目录和文件链接，通过这些链接可以访问下一层目录及当前目录中的文件。因而通过抓取目录列表，恶意用户往往可获取大量有用的资料，包括站点的目录结构、敏感文件以及 Web服务器设计架构及配置信息等等，比如程序使用的配置文件、日志文件、密码文件、数据库文件等，都有可能被网络爬虫抓取。这些信息可以作为挑选攻击目标或者直接入侵站点的重要资料。

2)搜索测试页面、手册文档、样本程序及可能存在的缺陷程序

大多数Web服务器软件附带了测试页面、帮助文档、样本程序及调试用后门程序等。这些文件往往会泄漏大量的系统信息甚至提供绕过认证直接访问Web服务数据的方法，成为恶意用户分析攻击Web服务器的有效情报来源。而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞。

3)搜索管理员登录页面

许多网络产品提供了基于Web的管理接口，允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范，没有修改网络产品默认的管理员名及密码，一旦其管理员登录页面被恶意用户搜索到，网络安全将面临极大的威胁。

本文出自：亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强！虚拟主机域名注册顶级提供商！15年品质保障！--亿恩科技[ENKJ.COM]

上一篇 >> 云计算安全漫谈：看安全架构的优势
下一篇 >> 网络应用程序每年或遭受2700多次攻击

服务器租用

服务器托管

机柜批发

云服务器

建站侠

空间/域名

安全保姆

帮助类别

帮助中心

文章内容

网络爬虫与Web安全

同类文章

亿恩公告

在线客服