网络爬虫原理

网络爬虫!!!!!!

http://www.wendangwang.com/%D0%C2%BA%D3%C4%CF%CD%F8/blog/item/90d6c40943e7f839e8248880.html


第一步:数据的抓取


网络采集程序的大致设计思路:
1.先确定需要下载的网页的URL,指定通信端口,创建一个用于网络通信的
Socket对象,网页下载默认端口是80,
2.结果通过流式输出接口输出,创建相应的输出对象。通过输入接口,向Socket中
传入HTTP下载请求。
3.远端的目标Web服务器得到请求后,发送应答消息。本地Socket对象收到消息后缓冲并输出,就完成整个网页的下载功能。
实践:
完成一个简单的网页下载,并保存到本地的功能程序。

第二步:网页分析程序实现


实现原理:
分析方法包括格式化字符去除,文本正文分词,信息过滤等基本任务
1.简单语言标记去除方法主要根据HTML语言的特点实现;
2.正则表达式信息抽取主要利用模板方式提取有效信息;
3.DOM树内容抽取是利用每个网页都有一定的层次结构的特点。
系统结构:
原始HTML文档---->网页结构化分析 ----> 网页结构信息
----> 视觉模块分析 ----> 视觉特征信息 ----> 信息过滤
----> 去除HTML标记 ----> 网页文本信息
实践:
1.完成一个简单的去除网页中的<>标签功能程序。WebParser.java,如下:
2.完成一个简单的简单字分割,过滤各种标点符号,结果文字以空格来分割不同汉字和英文词组。

第三步:网页索引程序实现

实现原理:
采用关键词匹配,核心算法采用倒排索引结构进行。
倒排索引是一种以关键词作为索引关键字和链表访问入口的索引结构。通常保存在内存中,提高访问速度,
利用索引关键字直接确定文档列表,最后确定希望找到的文档列表。由于搜索引擎中的文件通常并不单独存放,
而是存储在一个巨型的文件库里。为了节约内存,文档在索引中通常以文件库编号以及文件偏移量来代表。
当通过关键字检索时,检索的结果可以直接通过位置信息计算得到。在需要的时候可以读取内存空间或磁盘文件得到。
网页索引程序设计
程序的基本思想是采用文档关键字作为索引,生产按照关键字组合的链表,每个链表都是包含了特定关键字的文档集合。
在检索过程中按照关键字的哈希值或其它的映射算法,快速定位


关键字链表。在得到的文档集合基础上进行排序和过滤,就可以快速
得到需要的文档集合。

整个程序以两个循环为主线,对每个文档中的每个语素进行处理。每个语素作为关键字生成一个Hash值,并把附加的相关文档信息作为索引项保存。
每个关键字的索引项需要添加到Hash表中,但必须先检查是否

Word文档免费下载Word文档免费下载:网络爬虫原理 (共2页,当前第1页)

你可能喜欢

  • 网络设计
  • Java爬虫
  • 网络问题
  • 网络爬虫毕业设计
  • 网络应用
  • 网络分析
  • 网络技术
  • 网络蜘蛛

网络爬虫原理相关文档

最新文档

返回顶部