动态爬虫管理平台构建与实现(论文+源码)_kaic

news2024/10/11 18:37:09

摘  要

随着互联网的迅速发展,Web的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息,比如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户所需的内容,但目前互联网上的信息繁杂,难于辨识,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的,面向特定领域的搜索引擎来解决。

主题搜寻技术是垂直搜索引擎的重要组成部分。本文的主要目的是对主题爬虫技术的核心技术进行科学研究。主要研究方向如下:

(1)主题内容的提取是网络主题辨别的关键过程。本文综合了网页内容的特征和主题内容的相关特征,设计了一种提取网页主题内容的方法。

(2)明确提出了一种基于物理线路连接的主题辨别优化算法,以辨别网页的主题。将基于知识库系统的物理线路连接方法应用于特征提取。实验表明,该方法提高了主题网页辨别的准确性。

(3)本文基于Best-First算法,进行平台构建。平台构建是指导主题网络爬虫抓取网页的关键,本文采用基于Best-First算法的平台构建。

关键词:网络爬虫Best-First算法;平台构建;链接

Abstract

With the rapid development of the Internet, the information online is more and more various. People often use search engines to search for the information they want from the Internet, such as: Baidu, Google, Sogou, etc. This type of search engine is called a general search engine, which provides all users with all the information they want. With the increasing amount of information on the Internet, the information that users search for may be very different from the information they want. For this kind of problem, a more professional, field-oriented search engine is needed to solve it.

The topic web crawler is a key part of the vertical search engine. This article mainly studies the key technologies in the topic web crawler. The main research contents are as follows:

(1) The extraction of subject content is an important step of web subject identification. This paper combines the distribution characteristics of web content and related features of subject content to design a web subject content extraction method.

(2) A topic recognition algorithm based on entity links is proposed to identify the topic of web pages. The entity link method based on knowledge base is applied to feature extraction. Experiments show that this method improves the accuracy of topic webpage recognition.

(3) A platform construction based on Best-First algorithm is proposed. Platform construction is the key to guiding thematic web crawlers to crawl web pages. This article uses a platform construction based on the Best-First algorithm.

Keywords: topic web crawler; entity link; Best-First algorithm; platform construction

目  录

第1章 绪论

1.1背景与意义

1.2主题网络爬虫的国内外研究现状

1.2.1主题辨别算法及平台构建

1.2.2主题爬虫系统

1.3本文的研究内容

第二章 主题网络爬虫的体系结构

2.1组成模块

2.1.1基本组成

2.1.2基本流程

2.2主题页面的分布特性

2.2.1 Hub/Authority特性

2.2.2 Linkage/Sibling Locality特性

2.2.3站点的主题特性

2.2.4隧道特性

2.3搜索策略以及链接提取

2.3.1 robots协议和相对链接的转换

2.3.2搜索策略概述

第三章 网页主题内容抽取

3.1 HTML简介

3.2网页文件解析

3.3网页去噪

3.3.1利用统计学去噪

3.4主题内容的抽取

第四章 基于实体链接的主题辨别算法

4.1实体链接简介

4.2 CN-DBpedia

4.3基于实体链接的特征抽取

4.3.1候选特征集合抽取

4.3.2常见特征抽取算法

4.3.3最终特征抽取

4.4基于朴素贝叶斯算法的分类器

第五章 基于Best-First算法的平台构建

5.1通用搜索策略

5.2常用平台构建

5.2.1基于内容评价的搜索策略

5.2.2基于链接结构评价的搜索策略

5.3基于Best-First算法的平台构建

5.3.1链接价值评估

5.3.2平台构建

第六章总结与展望

6.1总结

6.2展望

参考文献

致谢

第1章 绪论

1.1背景与意义

随着Internet的飞速发展,Internet技术信息已成倍增加。根据我国互联网信息管理中心(CNNIC)发布的第四十份《中国互联网发展状况统计报告》 [1],数据显示:“截至2017年6月,中国互联网用户数量已达7.51亿。占全世界的五分之一。互联网技术覆盖率为54.3%;中国网站总数为506万,在一年中的大部分时间里增长了4.8%。”

如此众多的URL包括无数的网页。网页是信息的媒介。人们通常使用百度搜索和Google之类的通用搜索引擎来从Internet技术中获取所需的信息。众所周知,通用搜索引擎检索到的信息通常更为广泛。垂直搜索引擎是一个特殊的领域,它是通用搜索引擎的细分,它集成了特定行业的网页信息,然后在解决方案之后以某种方式将其返回给客户。垂直场针模块可显示特定行业,特殊客户或特殊要求的相关信息和服务项目。垂直搜索引擎专用于某个行业或技术行业,因此它们似乎更加集中,实用和深入。

主题Web爬虫,也称为焦点Web爬虫,是垂直搜索引擎的关键组件,因此对于主题Web爬虫的科学研究具有关键的现实意义。主题Web搜寻器是一个程序过程,可从Internet技术自动搜寻网页。它浏览与Internet技术相关的链接,并基于预设主题获取网页信息。通用Web爬网程序逐渐从多个种子链接开始,首先对具有种子链接的网页进行爬网,然后从该网页中提取新链接,并将其置于要爬网的顺序中,直到达到由设置的爬网完成标准系统软件或等待。爬网队列为空。相比之下,主题Web搜寻器的搜寻步骤更为复杂。在整个爬网过程中,必须预测和分析所连接主题的相似性然后放入根据主题相似度排序的待抓取队列中。

1.2主题网络爬虫的国内外研究现状

1999年,S.Chakrabani [2]首次明确提出了焦点网络爬虫的定义,并设计了计划并完成了Focus Proiect系统软件[3]。该技术一经提出很快获得了广泛关注。在下文中,我们将从基础理论和完整的系统软件两个层面详细介绍全球主题网络爬虫的研究现状。

1.2.1主题辨别算法及平台构建

P. DeBra [4]等。建议使用Fish-Search算法作为搜寻器的搜索策略。该算法假定主题相关的网页在逻辑上连接到与最近搜索主题相关的网页。 Shark-Search搜寻器[5]基本上在Fish-Search算法上得到了改进。 Fish-Search算法使用二进制实体模型来评估主题的相关性,而Shark-Search算法则基于连接锚链接和网页的情况。所计算的主题相关内容的相关性值的[0-1]范围内的值。该算法可以改善主题搜寻器的均方误差。 Best-First爬网程序[6]由CHO J等人在1998年提出,其关键概念是构建要爬网的序列,根据查看策略对序列中的连接进行注释,然后选择最佳的连接。

Larry Page以及Sergey Brin[7]两位专家提出了PageRank算法,运用于Google搜索引擎。leinberg博士首先提出HITS算法。

Diligenti[8]利用“语境图”构造分类器来作为爬虫的搜索策略。主题页面较近的页面将会被优先抓取,认为此部分页面的主题有较好的相关性。

陈军[13]提出了一种基于网页分层的Shark-Search算法,该算法以块为基本元素来衡量网页连接结构的使用价值。

熊忠阳[14]等人提出一种基于信息自增益的主题爬虫搜索策略。

1.2.2主题爬虫系统

基于理论基础研究,来自世界各地的权威专家设计并完成了许多高效的主题爬虫系统。

(1)科学体系。Elsevier Science和FAST联合开发了 Scirus系统[15],是一种垂直搜索的系统,可为在校学生和科研人员提供服务。有很多次,该系统都被评为了最佳垂直搜索引擎。

(2)美国数据科学公共图书馆的馆藏建设计划(CBP)系统。该系统的关键是用于科学和数学课程的在线电子书。实际操作很简单,客户只需要输入简单的查看信息内容即可查看更相关的连接。

(3)NEC研究所的CiteSeer系统。该系统是面向计算机的科学论文检索系统。

STIP系统。该系统是中科院参考信息中心实施中科院参考资源共享系统的子项目,关键是信息技术资源。

南京大学互联网技术数据收集系统(IDGS)。该系统使用匹配算法技术来完成对互联网技术中英文技术文档的自动检索。

北大天网系统[16]选择一组关键字来指示一个主题,并且网络爬虫根据对策使用这组主题关键字从Internet技术中获取数据,以便它可以尽快,全面地捕获该主题。相关信息资源。

专题数据收集系统Gsearch。由周鑫和其他人设计和完成。 Gsearch系统[17]有进行行业中市场评估分析的功能,例如公司管理决策的应用和该领域的市场需求分析。

1.3本文的研究内容

在本文中,基本的搜寻器技术基于获取导入网页的主题内容以及基于物理线路连接的主题标识优化算法辨别目标网页而后基于Best-First算法进行平台搭建,并指挥主题网络爬虫从互联网上抓取主题相关的网页。

本文的内容说明如下:

  1. 结合Web内容的普遍特征和主题内容的相关特征,提出了提取Web主题内容的设计方案。
  2.  在主题网页的辨别级别,选择基于物理线路连接的主题辨别算法来辨别主题网页。
  3. 在搜索策略中,选择了基于最佳优先算法的服务平台,以指导主题网络爬虫对主题相关的网页进行爬网。

本文共分为章,章节安排如下:

第一章,绪论。介绍了科学研究的现状和现实意义,各国主题网络爬虫的研究现状以及本文的研究方向和章节结构。

第二章主要介绍了网络爬虫的系统架构。在介绍通用Web爬网程序和主题Web爬网程序系统架构的基础上,讨论主题Web爬网程序和通用Web爬网程序之间的区别。

第三章主要介绍了网页主题内容的提取。首先介绍了HTML结构,然后介绍了网页分析以及如何解决网页噪音问题,最后讨论了如何提取网页主题内容和词性标注的相关内容。

第四章主要介绍了基于物理线路连接的主题辨别算法。本部分主要介绍主要内容有必要介绍物理线路连接以及如何在特征提取中应用主题连接,以提高主题辨别算法的准确性。

第五章基于Best-First算法构建服务平台。首先介绍通用网络爬虫的检索对策及相关算法,然后介绍了通用网络爬虫的搜索策略和相关算法的使用,接下来,介绍了其中两种主要的平台构建以及典型的算法,最后,详细阐述了本文所研究的基于Best-First算法的平台构建方法。

第六章,总结与展望论文探讨的内容。


第二章 主题网络爬虫的体系结构

2.1组成模块

2.1.1基本组成

主题网络爬虫的组成结构图2-1

图2-1主题网络爬虫的体系结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2205474.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【网络原理】TCP协议提高效率的秘密-滑动窗口机制

💐个人主页:初晴~ 📚相关专栏:计算机网络那些事 如果我们严格依照“确认应答”机制,针对每一个发送的数据段,都需要一个ACK确认应答,当收到ACK应答报文后,才继续发下一个报文。这样…

2025届计算机保研经验贴(末九→浙江大学软件学院)

燕园再美美不过宁波港,没到过浙软的人不会明了 软微已死,浙软当立! 文章目录 一、个人情况二、保研历程1、去年今日2、前期准备3、夏令营天大智算软件所西交软本校浙江大学软件学院 4、预推免 三、后记链式反应9.28下午冥场面9.29博弈 浙软当…

ClickHouse 24.9 版本发布说明

本文字数:7295;估计阅读时间:19 分钟 作者:ClickHouse Team 本文在公众号【ClickHouseInc】首发 又到新版本发布的时间了! 发布概要 本次ClickHouse 24.9 版本包含了23个新功能🎁、14项性能优化&#x1f6f…

[已解决] HttpMessageNotReadableException: JSON parse error: Unexpected character

[已解决] HttpMessageNotReadableException: JSON parse error: Unexpected character 文章目录 写在前面问题描述报错原因分析: 解决思路解决办法1. 检查并修复客户端的 JSON 数据格式2. 确认请求头的 Content-Type 设置正确3. 捕获并处理 HttpMessageNotReadableE…

三层b+树估算存储多少行数据

文章目录 B树结构图示估算方法(这里要以聚簇索引来看) B树结构图示 估算方法(这里要以聚簇索引来看) 非叶子节点数* 每个叶子结点记录总数 假设mysql 数据页,16kb,刚好对应B树的一个节点 每个叶子结点记录数, 叶子结点存储的是对应的原始数据…

项目常用版本控制管理工具

不仅仅是代码管理工具 gitHubgitcodeSVN gitHub https://github.com/ github gitcode https://gitcode.com/ gitcode SVN 图片: 带尺寸的图片: 居中的图片: 居中并且带尺寸的图片:

git--git reset

HEAD 单独一个HEAD eg:git diff HEAD 表示当前结点。 HEAD~ HEAD~只处理当前分支。 注意:master分支的上一个结点是tmp分支的所在的结点fc11b74, 79f109e才是master的第二个父节点。 HEAD~ 当前结点的父节点。 HEAD~1 当前结点的父节点。 HEAD~n 当前结点索…

Python 工具库每日推荐 【easyocr】

文章目录 引言Python OCR 工具库的重要性今日推荐:EasyOCR 工具库主要功能:使用场景:安装与配置快速上手示例代码代码解释实际应用案例案例:多语言名片信息提取案例分析高级特性自定义模型训练处理倾斜文本扩展阅读与资源优缺点分析优点:缺点:总结【 已更新完 TypeScript…

Qt实现侧边栏功能

本文介绍Qt实现侧边栏功能。 采用Qt进行界面应用程序开发时,经常遇到侧边栏功能实现,采用侧边栏可以将一些暂时不用到的功能隐藏,使用的时候点击一下相应的按钮即可弹出(动画方式)功能菜单。减少主界面控件数量&#…

JS | JS中类的 prototype 属性和__proto__属性

大多数浏览器的 ES5 实现之中,每一个对象都有__proto__属性,指向对应的构造函数的prototype属性。Class 作为构造函数的语法糖,同时有prototype属性和__proto__属性,因此同时存在两条继承链。 构造函数的子类有prototype属性。‌ …

搭建知识库:助力大健康零售电商的快速发展

一、大健康零售电商行业的快速发展及其对知识库的需求 随着互联网技术的飞速发展和人们对健康意识的显著提升,大健康零售电商行业迎来了前所未有的发展机遇。这一行业不仅涵盖了传统零售业的商品销售,还融入了健康管理、健康咨询、健康数据分析等多元化…

『网络游戏』数据库表格转储【25】

避免勿删数据库表格,可以将表格存储 放到桌面即可 现在将表格删除后点击 浏览桌面表格保存即可 修改客户端脚本:NetSvc.cs 目的是在数据库更新异常时弹出提示以便修改 本章结束

使用 Helsinki-NLP 中英文翻译本地部署 - python 实现

通过 Helsinki-NLP 本地部署中英文翻译功能。该开源模型性价比相对高,资源占用少,对于翻译要求不高的应用场景可以使用,比如单词,简单句式的中英文翻译。 该示例使用的模型下载地址:【免费】Helsinki-NLP中英文翻译本…

Pura 70系列和Pocket 2已支持升级尝鲜鸿蒙NEXT,报名教程在这里

相信不少关注鸿蒙 NEXT 的人都知道,10月8日起,华为开启了鸿蒙 NEXT 系统的公测,但有不少人不知道的是,除了公测的 Mate 60 和 Mate X5 两个系列的机型,还有两个系列的手机其实也可以提前升级体验鸿蒙 NEXT 系统。 Pur…

随时随地一键开播的云微客实景直播神器,你想要吗?

AI实景直播系统正在以自动化、智能化的特性,逐渐成为直播行业的新宠。在众人频繁使用手机的时代背景下,直播已经成为了大多数人娱乐的方式之一,然而传统的直播方式不仅操作繁琐而且人员成本也高;现在云微客实景直播不仅可以告别人…

在工业现场,数据采集相关的对象一般有哪些类型?

在工业现场,数据采集相关的对象一般有以下类型:一、设备运行参数类1.温度 —描述:反映设备的发热情况、工作环境温度等,对于一些对温度敏感的设备(如电子设备、精密机械等)至关重要。 —举例:在…

企业注册资金如何实缴?步骤与方式详解

在企业的发展过程中,注册资金实缴是一个重要的环节。它不仅体现了企业的实力和信誉,也为企业的经营活动提供了坚实的资金保障。那么,在 2024 年,企业注册资金实缴的步骤和方式有哪些呢? 一、企业注册资金实缴步骤 1、确…

[C语言]结构体

1.什么是结构体 结构是多种类型的数据的集合。。且每个结构成员都有名字,因此当使用特定的成员时需要指明结构体成员的名字。 2.结构体的声明 以学生的数据为例: struct student //student结构名{char name; //name结构体成员名int height;…

传知代码-自动车牌识别检测系统(论文复现)

代码以及视频讲解 本文所涉及所有资源均在传知代码平台可获取 YOLO V8实现多种车牌检测识别! 一、概述 使用yolov8进行车牌检测(训练测试演示部署) 二、支持类型 我们的车牌识别检测系统支持多种类型的车牌 具体支持类型如下&#xff1a…

云渲染农场可以用哪些CG软件!

随着数字内容创作的需求日益增长,3D艺术家们不断寻求更高效、更强大的渲染解决方案。云渲染农场以其灵活性和可扩展性,成为了许多创作者的首选。这些平台支持多种流行的CG软件,如Maya、3ds Max、Cinema 4D、Blender等,以及各种插件…