1. 简介
DBpedia 从维基百科(Wikipedia)的词条里撷取出结构化的信息,以强化维基百科的搜寻功能,同时还提供复杂信息的检索功能,并将其他资料集连结至维基百科。通过这样的语义化技术的介入,让维基百科的庞杂资讯有了许多创新而有趣的应用,例如手机版本、地图整合、多面向搜寻、关系查询、文件分类与标注等。
DBpedia为了实现上述目标,主要做了以下工作:
- 开发信息提取框架,将维基百科内容转化为RDF
- 以大型多领域的RDF数据集形式,提供维基百科内容
- 将DBpedia数据集与其他开放数据集联系起来
- 开发一系列接口和接入模块
2. 主要工作
下图说明了DBpedia信息提取过程,并展示了如何将提取的数据发布到Web上。
而提取出来的信息,我们将会通过一个infobox进行展示。
DBpedia数据集总共由大约1.03亿个RDF三元组组成。数据集作为一组较小的RDF文件提供下载。下图展示了DBpedia数据集的分布。像Person或者InfoBox这些数据集具有丰富的语义信息;像Links这类数据集仅包含元数据,缺乏语义信息,但是对于度量概念之间的距离与关联是有帮助的。
下图展示了DBpedia和其他开放数据库的链接关系。
3. 使用示例
- 输入实体名,返回实体的全部三元组知识。
- 请求参数:q代表实体名称(entity name) -> 红楼梦
- Ret:返回attribute-value pair list, 每一个pair也是一个list
- URL:http://shuyantech.com/api/cndbpedia/avpair?q=**