动态爬虫管理平台构建与实现(论文+源码)

摘要

随着互联网的迅速发展，Web的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息，比如:百度，谷歌，搜狗等。这类搜索引擎称之为通用搜索引擎，其为所有的用户所需的内容，但目前互联网上的信息繁杂，难于辨识，用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题，就需要更加专业的，面向特定领域的搜索引擎来解决。

主题搜寻技术是垂直搜索引擎的重要组成部分。本文的主要目的是对主题爬虫技术的核心技术进行科学研究。主要研究方向如下：

（1）主题内容的提取是网络主题辨别的关键过程。本文综合了网页内容的特征和主题内容的相关特征，设计了一种提取网页主题内容的方法。

（2）明确提出了一种基于物理线路连接的主题辨别优化算法，以辨别网页的主题。将基于知识库系统的物理线路连接方法应用于特征提取。实验表明，该方法提高了主题网页辨别的准确性。

（3）本文基于Best-First算法，进行平台构建。平台构建是指导主题网络爬虫抓取网页的关键，本文采用基于Best-First算法的平台构建。

关键词：网络爬虫；Best-First算法；平台构建；链接

Abstract

With the rapid development of the Internet, the information online is more and more various. People often use search engines to search for the information they want from the Internet, such as: Baidu, Google, Sogou, etc. This type of search engine is called a general search engine, which provides all users with all the information they want. With the increasing amount of information on the Internet, the information that users search for may be very different from the information they want. For this kind of problem, a more professional, field-oriented search engine is needed to solve it.

The topic web crawler is a key part of the vertical search engine. This article mainly studies the key technologies in the topic web crawler. The main research contents are as follows:

(1) The extraction of subject content is an important step of web subject identification. This paper combines the distribution characteristics of web content and related features of subject content to design a web subject content extraction method.

(2) A topic recognition algorithm based on entity links is proposed to identify the topic of web pages. The entity link method based on knowledge base is applied to feature extraction. Experiments show that this method improves the accuracy of topic webpage recognition.

(3) A platform construction based on Best-First algorithm is proposed. Platform construction is the key to guiding thematic web crawlers to crawl web pages. This article uses a platform construction based on the Best-First algorithm.

Keywords: topic web crawler; entity link; Best-First algorithm; platform construction

第1章绪论

1.1背景与意义

随着Internet的飞速发展，Internet技术信息已成倍增加。根据我国互联网信息管理中心（CNNIC）发布的第四十份《中国互联网发展状况统计报告》 [1]，数据显示：“截至2017年6月，中国互联网用户数量已达7.51亿。占全世界的五分之一。互联网技术覆盖率为54.3％；中国网站总数为506万，在一年中的大部分时间里增长了4.8％。”

如此众多的URL包括无数的网页。网页是信息的媒介。人们通常使用百度搜索和Google之类的通用搜索引擎来从Internet技术中获取所需的信息。众所周知，通用搜索引擎检索到的信息通常更为广泛。垂直搜索引擎是一个特殊的领域，它是通用搜索引擎的细分，它集成了特定行业的网页信息，然后在解决方案之后以某种方式将其返回给客户。垂直场针模块可显示特定行业，特殊客户或特殊要求的相关信息和服务项目。垂直搜索引擎专用于某个行业或技术行业，因此它们似乎更加集中，实用和深入。

主题Web爬虫，也称为焦点Web爬虫，是垂直搜索引擎的关键组件，因此对于主题Web爬虫的科学研究具有关键的现实意义。主题Web搜寻器是一个程序过程，可从Internet技术自动搜寻网页。它浏览与Internet技术相关的链接，并基于预设主题获取网页信息。通用Web爬网程序逐渐从多个种子链接开始，首先对具有种子链接的网页进行爬网，然后从该网页中提取新链接，并将其置于要爬网的顺序中，直到达到由设置的爬网完成标准系统软件或等待。爬网队列为空。相比之下，主题Web搜寻器的搜寻步骤更为复杂。在整个爬网过程中，必须预测和分析所连接主题的相似性，然后放入根据主题相似度排序的待抓取队列中。

1.2主题网络爬虫的国内外研究现状

1999年，S.Chakrabani [2]首次明确提出了焦点网络爬虫的定义，并设计了计划并完成了Focus Proiect系统软件[3]。该技术一经提出很快获得了广泛关注。在下文中，我们将从基础理论和完整的系统软件两个层面详细介绍全球主题网络爬虫的研究现状。

1.2.1主题辨别算法及平台构建

P. DeBra [4]等。建议使用Fish-Search算法作为搜寻器的搜索策略。该算法假定主题相关的网页在逻辑上连接到与最近搜索主题相关的网页。 Shark-Search搜寻器[5]基本上在Fish-Search算法上得到了改进。 Fish-Search算法使用二进制实体模型来评估主题的相关性，而Shark-Search算法则基于连接锚链接和网页的情况。所计算的主题相关内容的相关性值的[0-1]范围内的值。该算法可以改善主题搜寻器的均方误差。 Best-First爬网程序[6]由CHO J等人在1998年提出，其关键概念是构建要爬网的序列，根据查看策略对序列中的连接进行注释，然后选择最佳的连接。

Larry Page以及Sergey Brin[7]两位专家提出了PageRank算法，运用于Google搜索引擎。leinberg博士首先提出HITS算法。

Diligenti[8]利用“语境图”构造分类器来作为爬虫的搜索策略。主题页面较近的页面将会被优先抓取，认为此部分页面的主题有较好的相关性。

陈军[13]提出了一种基于网页分层的Shark-Search算法，该算法以块为基本元素来衡量网页连接结构的使用价值。

熊忠阳[14]等人提出一种基于信息自增益的主题爬虫搜索策略。