完整资料进入【数字空间】查看——搜索"writebug"
实验环境
win10
一、实验内容
综合运用搜索引擎体系结构和核心算法方面的知识,基于开源资源搭建搜索引擎,具体包括如下几点:
抓取清华校园网内绝大部分资源,并且进行预处理;
基于Lucene实现校园搜索引擎——太强搜索;
加入关键词纠错、查询提示、语音搜索、相关推荐功能,以提高太强搜索的体验;
美化Web界面,实现关键词高亮、快速预览等功能;
完成对于太强搜索的性能评价。
二、实现过程
2.1 抓取校园网资源并处理
使用 Heritrix 抓取工具,抓取 HTML,PDF,M.S.Word 格式的文件28万份,共计31GB。编写 Python 脚本处理抓取到的数据,解析成 json 文件: 首先遍历所有抓取到的 文件,为每一个文件分配一个 ID,文件与 ID 一一对应,ID 用于之后PageRank的计算。获取文件的标题、文本 (docContent)、标签(h1~h6)、加粗(strong)信息等。使用BeatifulSoup 库解 析 HTML 文件内容,获取其中的超链接,为抓取到的整个数据包构建图结构, 根据图结构计算网页的 PageRank,使用pdfminer库解析pdf文件,使用docx2txt库解析word文件。我们发现实际抓到的html文件给出的charset有时是错误的,因此使用了chardet自动判断网页的编码,这样我们便可以处理几乎所有的编码。