UMLS数据申请
这个直接在官网上申请即可,记得把地址填全,基本都会拿到lisence。
UMLS数据访问
UMLS的数据访问分为网页访问,API访问以及数据下载后的本地访问,网页访问,API访问按照官网的指示即可,这里主要讲一下本地访问的注意事项。
UMLS 本地访问
本地访问是指可以下载数据文件并在本地数据库例如mysql里查看及处理。UMLS提供的可下载数据文件主要分为三类,第一类是UMLS Metathesaurus Precomputed Subsets ,只有元数据库的数据;第二类是Full UMLS Release Files包含了元数据库,语义网络以及专业术语;第三类是Metathesaurus History Files主要是历史的元数据。
UMLS Metathesaurus Precomputed Subsets数据导入
- step1: 找到安装文件。在.\umls-2024AB-metathesaurus-full\2024AB\META 路径下,找到populate_mysql_db.bat(根据数据库和系统型号选择合适的安装文件即可。e.g. 对于mysql,Windows安装选populate_mysql_db.bat, linux 安装选populate_mysql_db.sh)
- step2:修改自定义内容。使用windows自带的Nodepad打开populate_mysql_db.bat,将如下信息配置成自己的个性化信息。
set MYSQL_HOME=<path to MYSQL_HOME> set user=<username> set password=<password> set db_name=<db_name>
- step3:安装,看log解决其他报错。
Full UMLS Release Files数据导入
这个比上个部分(metathesaurus precomputed subsets部分的步骤多了一步将mmsys解压并自定义subset的过程,后续向mysql的导入操作与上个部分一致)
mmsys解压并自定义subset:UMLS - MetamorphoSys Help
(mysql安装教程可参考reference2)
可能出现的bug
1. 要注意一下metathesaurus precomputed subsets这个版本的mysql_tables.sql会报MySQL ERROR 1064 (42000)的错误,需要修改一下load data的语句。
原始sql:
load data local infile 'MRCONSO.RRF'
into table MRCONSO
fields terminated by '|'
ESCAPED BY ''
lines terminated by @LINE_TERMINATION@
修改建议:
将 @LINE_TERMINATION@
替换为有效字符串
'\n'
(Unix/Linux)'\r\n'
(Windows)
2. 如果提前已经在环境变量中配置好mysql的路径,则populate_mysql_db.bat需要修改一下。将命令行语句的%MYSQL_HOME%\bin\mysql直接修改为mysql即可。
REFERENCE
UMLS - Load Scripts
Windows 安装并配置 MySQL 5.6_mysql 5.6 安装-CSDN博客