前言
最近的项目在做百度知识图谱相关的,需要实现内容将本地数据处理->数据格式转化->数据接入图谱平台。因为百度提供的sdk为Python的sdk,所以我需要将Python程序转换成PHP格式。
图谱生产流程介绍
1.知识定义
建立相应的scheme,确定类目以及类目属性;
2.数据处理
根据schema中制定好的的数据字段收集符合要求的标准化格式数据(1)需要根据给定schema收集数据,要确保收集的数据字段名称跟schema中的名称保持⼀致;(2)需要将excel数据转换为图谱⽣产平台可理解的JsonLD格式;
3.数据接⼊
数据处理好之后,需要将处理好的数据推送到知识图谱⽣产平台;
4.图谱生产。
生产使用SDK
1.PHP百度图谱数据SDK
2.SDK包含内容
(1)该sdk包含2.数据处理 步骤 (2)将excel整理数据转成JsonLD格式;
(2)包含步骤3.数据接入,将处理好的数据push到图谱生产平台;
3.注意事项
(1)注意修改sdk的相关配置,例如Excel文件路径,push的地址,处理数据的格式处理等,要根据自己项目需求稍做调整;
(2)push数据要用cmd进入到push.php 所在目录,通过命令行操作push,如果数据量较大,通过浏览器执行会又卡死现象;
(3)因项目需要读取excel数据,程序中使用PhpOffice\PhpSpreadsheet扩展,所以请自行composer安装下载PhpOffice\PhpSpreadsheet扩展;
(4)生成json文件后,要对数据简单进行检查,主要检查有关联的类目,存储值格式是否正确。
总结
祝大家新年快乐~新的一年,诸事顺遂,称心如意~