目 录
第1章 绪论
1.1背景与意义
1.2主题网络爬虫的国内外研究现状
1.2.1主题辨别算法及平台构建
1.2.2主题爬虫系统
1.3本文的研究内容
第二章 主题网络爬虫的体系结构
2.1组成模块
2.1.1基本组成
2.1.2基本流程
2.2主题页面的分布特性
2.2.1 Hub/Authority特性
2.2.2 Linkage/Sibling Locality特性
2.2.3站点的主题特性
2.2.4隧道特性
2.3搜索策略以及链接提取
2.3.1 robots协议和相对链接的转换
2.3.2搜索策略概述
第三章 网页主题内容抽取
3.1 HTML简介
3.2网页文件解析
3.3网页去噪
3.3.1利用统计学去噪
3.4主题内容的抽取
第四章 基于实体链接的主题辨别算法
4.1实体链接简介
4.2 CN-DBpedia
4.3基于实体链接的特征抽取
4.3.1候选特征集合抽取
4.3.2常见特征抽取算法
4.3.3最终特征抽取
4.4基于朴素贝叶斯算法的分类器
第五章 基于Best-First算法的平台构建
5.1通用搜索策略
5.2常用平台构建
5.2.1基于内容评价的搜索策略
5.2.2基于链接结构评价的搜索策略
5.3基于Best-First算法的平台构建
5.3.1链接价值评估
5.3.2平台构建
第六章总结与展望
6.1总结
6.2展望
参考文献
致谢