网络爬虫技术的发展趋势

网络爬虫技术的发展趋势

北京交通大学通信与信息系统北京市重点实验室

蔡笑伦

[摘要]搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容。如何使搜索引擎能

阐述了网络爬虫技术的搜索策略,展望新时刻满足人们的需求,我们需要找到一种方法。本文介绍了搜索引擎的分类及工作原理,

一代搜索引擎的发展趋势。[关键词]网络爬虫策略搜索引擎

网络快速发展的今天,互联网承载着海量的信息,能够准确快速的提取我们所需要的信息是现在的挑战。传统的搜索引擎有Yahoo,Google,百度等,这些检索信息的工具是人们每天访问互联网的必经之路。但是,这些传统性搜索引擎存在着局限性,它不能全面的准确的找

严重的降到所需要的信息,也会使一些和需求无关的内容一起搜索到。

低了使用这些信息的效率,所以说提高检索信息的速度和质量是一个专业搜索引擎主要的研究内容。

1.搜索引擎的研究1.1搜索引擎的分类

搜索引擎按其工作方式可分为三种,分别是全文搜索引擎,目录索引类搜索引擎和元搜索引擎。

(1)全文搜索引擎

全文搜索引擎是最常用搜索引擎,大家最熟悉的就是国外的代表Google,和国内的代表百度。它们通常都是提取各个网站的网页文字存放在建立的数据库中,检索与用户查询条件匹配的相关记录,然后按其自己设定的排列顺序将结果返回给用户。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,它们拥有自己的网页数据库,搜索到得内容直接从自身的数据库中调用,如Google和百度;另一种则是租用其他引擎的数据库,但是,是按自定的格式排列搜索结果,如Lycos引擎。

(2)目录索引型搜索引擎目录索引,就是将网站分类,然后存放在相应的目录里,用户在查询所需要的内容时有两种选择一种是关键词搜索,另一种是按分类目录一层一层的查找。据信息关联程度排列,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后以关键词搜索,返回的结果跟搜索引擎一样,也是按自定顺序决定。

目录索引只能说有搜索功能,但仅仅是按目录分类的网站链接列用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的表。信息。目录索引型搜索引擎中最具代表性的是Yahoo(雅虎)。其他著名

About等。国内的搜狐、新浪、网易搜索也都属于这一的还有LookSmart、

类。

(3)元搜索引擎

当用户在进行查询时,元搜索引擎可以同时在其他多个引擎上进行搜索,将检索结果进行统一处理,并将结果以统一的格式返回给用

这类搜索引擎的优点是返回结果的信息量更全面,但户。正因为如此,

是缺点就是无用的信息太多不能准确的找到用户需要的结果。

具有代表性的元搜索引擎有Dogpile、InfoSpace、Vivisimo等,中文元搜索引擎中著名的有搜星搜索引擎。

在搜索结果排列方面,不同的元搜索引擎有不同的结果排列的方

就直接按来源引擎排列搜索结果,如Vivisimo,是按自定式。如Dogpile,

的规则将结果重新进行排列。

1.2搜索引擎的工作原理

搜索引擎主要是对用户要求的信息进行自动信息搜集,这个功能共分为两种:一种是定期搜索,即每隔一段时间搜索引擎主动派出“Spider”程序,目的是对一定IP地址范围内的互联网站进行检索,如果一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,搜索引擎在一定时间内定向向你的网站派出蜘蛛程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

如果用户以关键词查询所需要的信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相匹配的网站时,搜索引擎通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等特殊的算

法计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将

用户所需要的内容反馈给用户。

2.网络爬虫

2.1通用网络爬虫和聚焦网络爬虫的工作原理

网络爬虫是搜索引擎的重要组成部分,它是一个自动提取网页的程序,为搜索引擎从网上下载网页。

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

与传统爬虫相比,聚焦爬虫的工作流程则较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入

它将根据一定的搜索策略从队列中选择等待抓取的URL队列。然后,

下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存起来,进行一定的分析、过滤,并建立索引,为了方便之后的查询和检索。

2.2网络爬虫的搜索策略(1)IP地址搜索策略

IP地址搜索策略是先给爬虫一个起始的IP地址,然后根据IP地址以递增的方式搜索本IP地址段后的每一个地址中的文档,它完全不考虑各文档中指向其它Web站点的超级链接地址。这种搜索策略的优点是搜索比较全面,因此能够发现那些没被其它文档引用的新文档的信息源;但是缺点是不适合大规模搜索。

(2)深度优先搜索策略

深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。例如,在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,也就是说在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。

(3)宽度优先搜索策略

宽度优先搜索的过程是先搜索完一个Web页面中所有的超级链

例如,一个HTML文件中有接,然后再继续搜索下一层,直到底层为止。

三个超链,选择其中之一并处理相应的HTML文件,然后不再选择第二个HTML文件中的任何超链,而是返回并选择第二个超链,处理相应的HTML文件,再返回,选择第三个超链并处理相应的HTML文件。当一层上的所有超链都已被选择过,就可以开始在刚才处理过的HIML文件中搜索其余的超链。

宽度优先搜索策略的优点:一个是保证了对浅层的优先处理,当遇到一个无穷尽的深层分支时,不会导致陷进WWW中的深层文档中出现出不来的情况发生;另一个是它能在两个HTML文件之间找到最短路径。

宽度优先搜索策略通常是实现爬虫的最佳策略,因为它容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集,用宽度优先搜索策略则需要花费比较长的时间才能到达深层的HTML文件。

2.3网络爬虫的发展趋势

随着AJAX/Web2.0的流行,如何抓取AJAX等动态页面成了搜索引擎急需解决的问题,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX页面的有效数据的。对于AJAX这样的技术,所需要的爬虫引擎必须是基于驱动的。而如果想要实现事件驱动,(下转第424页)

基金项目:本文系北京市自然科学基金资助项目(4102047);北京市教育委员会学科建设与研究生建设资助项目(JXKJD20090001);科技人员服务企

业项目(2009GJA00048)。作者简介:蔡笑伦(1984-),男,北京交通大学工程硕士研究生,主要研究方向为网络舆情技术。

Word文档免费下载Word文档免费下载:网络爬虫技术的发展趋势 (共2页,当前第1页)

你可能喜欢

  • 网络爬虫毕业设计
  • 网络系统
  • 网络设计
  • 网络爬虫原理
  • 网络分析
  • 爬虫技术
  • 设计与实现
  • 毕业设计论文

网络爬虫技术的发展趋势相关文档

最新文档

返回顶部