网络爬虫技术(新)

网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎

网络爬虫技术

网络机器人

1.概念:

它们是Web上独自运行的软件程序,它们不断地筛选数据,做出自己的 决定,

能够使用Web获取文本或者进行搜索查询,按部就班地完成各自的任务。

2.分类:

购物机器人、聊天机器人、搜索机器人(网络爬虫)等。

搜索引擎

1.概念:

从网络上获得网站网页资料,能够建立数据库并提供查询的系统。

2.分类(按工作原理):

全文搜索引擎、分类目录。

1> 全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量

网页信息内容,并按一定的规则分析整理形成的。(百度、Google)

2> 分类目录:按目录分类的网站链接列表而已,通过人工的方式收集整理网

站资料形成的数据库。(国内的搜狐)

网络爬虫

1.概念:

网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。 搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。

网络爬虫技术(新)

Word文档免费下载Word文档免费下载:网络爬虫技术(新) (共5页,当前第1页)

你可能喜欢

  • 网络爬虫原理
  • 网络设计
  • 网络爬虫毕业设计
  • 网络系统
  • 网络工具
  • Java爬虫
  • 网络应用
  • 爬虫技术

网络爬虫技术(新)相关文档

最新文档

返回顶部