摘 要
随着互联网的迅速发展,Web的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息,比如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户所需的内容,但目前互联网上的信息繁杂,难于辨识,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的,面向特定领域的搜索引擎来解决。
主题搜寻技术是垂直搜索引擎的重要组成部分。本文的主要目的是对主题爬虫技术的核心技术进行科学研究。主要研究方向如下:
(1)主题内容的提取是网络主题辨别的关键过程。本文综合了网页内容的特征和主题内容的相关特征,设计了一种提取网页主题内容的方法。
(2)明确提出了一种基于物理线路连接的主题辨别优化算法,以辨别网页的主题。将基于知识库系统的物理线路连接方法应用于特征提取。实验表明,该方法提高了主题网页辨别的准确性。
(3)本文基于Best-First算法,进行平台构建。平台构建是指导主题网络爬虫抓取网页的关键,本文采用基于Best-First算法的平台构建。
关键词:网络爬虫;Best-First算法;平台构建;链接
Abstract
With the rapid development of the Internet, the information online is more and more various. People often use search engines to search for the information they want from the Internet, such as: Baidu, Google, Sogou, etc. This type of search engine is called a general search engine, which provides all users with all the information they want. With the increasing amount of information on the Internet, the information that users search for may be very different from the information they want. For this kind of problem, a more professional, field-oriented search engine is needed to solve it.
The topic web crawler is a key part of the vertical search engine. This article mainly studies the key technologies in the topic web crawler. The main research contents are as follows:
(1) The extraction of subject content is an important step of web subject identification. This paper combines the distribution characteristics of web content and related features of subject content to design a web subject content extraction method.
(2) A topic recognition algorithm based on entity links is proposed to identify the topic of web pages. The entity link method based on knowledge base is applied to feature extraction. Experiments show that this method improves the accuracy of topic webpage recognition.
(3) A platform construction based on Best-First algorithm is proposed. Platform construction is the key to guiding thematic web crawlers to crawl web pages. This article uses a platform construction based on the Best-First algorithm.
Keywords: topic web crawler; entity link; Best-First algorithm; platform construction
目 录
第1章 绪论
1.1背景与意义
1.2主题网络爬虫的国内外研究现状
1.2.1主题辨别算法及平台构建
1.2.2主题爬虫系统
1.3本文的研究内容
第二章 主题网络爬虫的体系结构
2.1组成模块
2.1.1基本组成
2.1.2基本流程
2.2主题页面的分布特性
2.2.1 Hub/Authority特性
2.2.2 Linkage/Sibling Locality特性
2.2.3站点的主题特性
2.2.4隧道特性
2.3搜索策略以及链接提取
2.3.1 robots协议和相对链接的转换
2.3.2搜索策略概述
第三章 网页主题内容抽取
3.1 HTML简介
3.2网页文件解析
3.3网页去噪
3.3.1利用统计学去噪
3.4主题内容的抽取
第四章 基于实体链接的主题辨别算法
4.1实体链接简介
4.2 CN-DBpedia
4.3基于实体链接的特征抽取
4.3.1候选特征集合抽取
4.3.2常见特征抽取算法
4.3.3最终特征抽取
4.4基于朴素贝叶斯算法的分类器
第五章 基于Best-First算法的平台构建
5.1通用搜索策略
5.2常用平台构建
5.2.1基于内容评价的搜索策略
5.2.2基于链接结构评价的搜索策略
5.3基于Best-First算法的平台构建
5.3.1链接价值评估
5.3.2平台构建
第六章总结与展望
6.1总结
6.2展望
参考文献
致谢
第1章 绪论
1.1背景与意义
随着Internet的飞速发展,Internet技术信息已成倍增加。根据我国互联网信息管理中心(CNNIC)发布的第四十份《中国互联网发展状况统计报告》 [1],数据显示:“截至2017年6月,中国互联网用户数量已达7.51亿。占全世界的五分之一。互联网技术覆盖率为54.3%;中国网站总数为506万,在一年中的大部分时间里增长了4.8%。”
如此众多的URL包括无数的网页。网页是信息的媒介。人们通常使用百度搜索和Google之类的通用搜索引擎来从Internet技术中获取所需的信息。众所周知,通用搜索引擎检索到的信息通常更为广泛。垂直搜索引擎是一个特殊的领域,它是通用搜索引擎的细分,它集成了特定行业的网页信息,然后在解决方案之后以某种方式将其返回给客户。垂直场针模块可显示特定行业,特殊客户或特殊要求的相关信息和服务项目。垂直搜索引擎专用于某个行业或技术行业,因此它们似乎更加集中,实用和深入。
主题Web爬虫,也称为焦点Web爬虫,是垂直搜索引擎的关键组件,因此对于主题Web爬虫的科学研究具有关键的现实意义。主题Web搜寻器是一个程序过程,可从Internet技术自动搜寻网页。它浏览与Internet技术相关的链接,并基于预设主题获取网页信息。通用Web爬网程序逐渐从多个种子链接开始,首先对具有种子链接的网页进行爬网,然后从该网页中提取新链接,并将其置于要爬网的顺序中,直到达到由设置的爬网完成标准系统软件或等待。爬网队列为空。相比之下,主题Web搜寻器的搜寻步骤更为复杂。在整个爬网过程中,必须预测和分析所连接主题的相似性,然后放入根据主题相似度排序的待抓取队列中。
1.2主题网络爬虫的国内外研究现状
1999年,S.Chakrabani [2]首次明确提出了焦点网络爬虫的定义,并设计了计划并完成了Focus Proiect系统软件[3]。该技术一经提出很快获得了广泛关注。在下文中,我们将从基础理论和完整的系统软件两个层面详细介绍全球主题网络爬虫的研究现状。
1.2.1主题辨别算法及平台构建
P. DeBra [4]等。建议使用Fish-Search算法作为搜寻器的搜索策略。该算法假定主题相关的网页在逻辑上连接到与最近搜索主题相关的网页。 Shark-Search搜寻器[5]基本上在Fish-Search算法上得到了改进。 Fish-Search算法使用二进制实体模型来评估主题的相关性,而Shark-Search算法则基于连接锚链接和网页的情况。所计算的主题相关内容的相关性值的[0-1]范围内的值。该算法可以改善主题搜寻器的均方误差。 Best-First爬网程序[6]由CHO J等人在1998年提出,其关键概念是构建要爬网的序列,根据查看策略对序列中的连接进行注释,然后选择最佳的连接。
Larry Page以及Sergey Brin[7]两位专家提出了PageRank算法,运用于Google搜索引擎。leinberg博士首先提出HITS算法。
Diligenti[8]利用“语境图”构造分类器来作为爬虫的搜索策略。主题页面较近的页面将会被优先抓取,认为此部分页面的主题有较好的相关性。
陈军[13]提出了一种基于网页分层的Shark-Search算法,该算法以块为基本元素来衡量网页连接结构的使用价值。
熊忠阳[14]等人提出一种基于信息自增益的主题爬虫搜索策略。
1.2.2主题爬虫系统
基于理论基础研究,来自世界各地的权威专家设计并完成了许多高效的主题爬虫系统。
(1)科学体系。Elsevier Science和FAST联合开发了 Scirus系统[15],是一种垂直搜索的系统,可为在校学生和科研人员提供服务。有很多次,该系统都被评为了最佳垂直搜索引擎。
(2)美国数据科学公共图书馆的馆藏建设计划(CBP)系统。该系统的关键是用于科学和数学课程的在线电子书。实际操作很简单,客户只需要输入简单的查看信息内容即可查看更相关的连接。
(3)NEC研究所的CiteSeer系统。该系统是面向计算机的科学论文检索系统。
STIP系统。该系统是中科院参考信息中心实施中科院参考资源共享系统的子项目,关键是信息技术资源。
南京大学互联网技术数据收集系统(IDGS)。该系统使用匹配算法技术来完成对互联网技术中英文技术文档的自动检索。
北大天网系统[16]选择一组关键字来指示一个主题,并且网络爬虫根据对策使用这组主题关键字从Internet技术中获取数据,以便它可以尽快,全面地捕获该主题。相关信息资源。
专题数据收集系统Gsearch。由周鑫和其他人设计和完成。 Gsearch系统[17]有进行行业中市场评估分析的功能,例如公司管理决策的应用和该领域的市场需求分析。
1.3本文的研究内容
在本文中,基本的搜寻器技术基于获取导入网页的主题内容以及基于物理线路连接的主题标识优化算法辨别目标网页,而后基于Best-First算法进行平台搭建,并指挥主题网络爬虫从互联网上抓取主题相关的网页。
对本文的内容说明如下:
- 结合Web内容的普遍特征和主题内容的相关特征,提出了提取Web主题内容的设计方案。
- 在主题网页的辨别级别,选择基于物理线路连接的主题辨别算法来辨别主题网页。
- 在搜索策略中,选择了基于最佳优先算法的服务平台,以指导主题网络爬虫对主题相关的网页进行爬网。
本文共分为六章,章节安排如下:
第一章,绪论。介绍了科学研究的现状和现实意义,各国主题网络爬虫的研究现状以及本文的研究方向和章节结构。
第二章主要介绍了网络爬虫的系统架构。在介绍通用Web爬网程序和主题Web爬网程序系统架构的基础上,讨论主题Web爬网程序和通用Web爬网程序之间的区别。
第三章主要介绍了网页主题内容的提取。首先介绍了HTML结构,然后介绍了网页分析以及如何解决网页噪音问题,最后讨论了如何提取网页主题内容和词性标注的相关内容。
第四章主要介绍了基于物理线路连接的主题辨别算法。本部分主要介绍主要内容有必要介绍物理线路连接以及如何在特征提取中应用主题连接,以提高主题辨别算法的准确性。
第五章基于Best-First算法构建服务平台。首先介绍通用网络爬虫的检索对策及相关算法,然后介绍了通用网络爬虫的搜索策略和相关算法的使用,接下来,介绍了其中两种主要的平台构建以及典型的算法,最后,详细阐述了本文所研究的基于Best-First算法的平台构建方法。
第六章,总结与展望本论文探讨的内容。
第二章 主题网络爬虫的体系结构
2.1组成模块
2.1.1基本组成
主题网络爬虫的组成结构如图2-1:
图2-1主题网络爬虫的体系结构