中药垂直大模型汇总

news2025/3/17 11:26:13

中药垂直大模型汇总

2023

ShenNong-TCM


Paper: ShenNong-TCM: A Traditional Chinese Medicine Large Language Model
Data: https://huggingface.co/datasets/michaelwzhu/ShenNong_TCM_Dataset
Code:https://github.com/michael-wzhu/ShenNong-TCM-LLM

ShenNong-TCM由华东师范大学计算机科学与技术学院智能知识管理与服务团队完成,旨在推动大型语言模型在中医药领域的发展和落地,提升大型语言模型的在中医药方面的知识与回答医学咨询的能力,同时推动大模型赋能中医药传承。

BenTsao


Paper: https://ar5iv.labs.arxiv.org/html/2304.06975
Code: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
Data: 未开源;原始来源:知识图谱数据: https://github.com/king-yyf/CMeKG_tools

本草大模型由哈尔滨工业大学社会计算与信息检索研究中心健康智能组合作研发。项目开源了经过中文医学指令精调/指令微调的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。

TCMLLM

由北京交通大学计算机与信息技术学院医学智能团队开发的中医药大语言模型项目(TCMLLM)拟通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐指令微调大模型TCMLLM-PR。研发团队整合了8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》、2020版中国药典、中医临床经典医案数据、以及多个三甲医院的涵盖肺病、中风病、糖尿病、肝病、脾胃病等多病种的临床病历数据,构建了包含68k数据条目(共10M token)的处方推荐指令微调数据集,并使用此数据集,在ChatGLM大模型上进行大规模指令微调,最终得到了中医处方推荐大模型TCMLLM-PR。

Paper
Data:
Code:https://github.com/2020MEAI/TCMLLM

HHuangDi

Paper: https://www.cnki.com.cn/Article/CJFDTotal-TSGL20240123001.htm
Code:https://github.com/Zlasejd/HuangDI
Data: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练语言模型(pre-trained model),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。

TCM-GPT


Paper: https://arxiv.org/abs/2311.01786
Code:
Data:

由北京邮电大学团队研发,该论文提出了一种新颖的面向传统中医领域的自适应预训练方法TCMDA。通过构建大规模特定领域的中医语料库TCM-Corpus-1B,并使用LoRA技术对特定领域进行高效的预训练和微调,从而有效应用于中医领域。在中医考试和中医诊断两个任务上,TCM-GPT-7B模型相对于其他模型分别提高了17%和12%的准确率,表现最好。该研究成功验证了在中医领域中使用70亿参数的大规模语言模型进行领域自适应的先驱性工作。

2024

Qibo


Paper:https://arxiv.org/pdf/2403.16056
GitHub:
Dataset:

Qibo由天津中医药团队完成, 主要以中医药领域的教科书为基础,构建了中医药领域的评估基准,并提供了不同科目的客观选择题,以评估中医药领域的基本知识能力,此外还验证了中药的识别能力,以及阅读和理解中药的能力, 中药辩证的能力,以及使用 GPT-4 来评估其答案的专业性、安全性和流畅性。

MedChatZH


Paper:https://www.sciencedirect.com/science/article/abs/pii/S0010482524003743
GitHub: https://github.com/tyang816/MedChatZH
Dataset:https://huggingface.co/tyang816/MedChatZH

  1. 收集并整理大量中医文本形成预训练语料库,构建通用对话与医学对话相结合的高质量数据集。该数据集经过启发式和基于奖励的评估,以过滤掉敏感信息和低质量的口语回答。
  2. 从互联网和中国各医院收集了超过 700 万条医疗质量保证指令。
  3. 评估 MedChatZH 在真实世界的中国医学 QA 基准数据集上的性能,证明其在多个评估指标上优于其他基线模型。

BianCang-TCM-LLM


Paper:
Code: https://github.com/QLU-NLP/BianCang-TCM-LLM?tab=readme-ov-file
Data:

扁仓中医大模型的训练数据包含两部分:

  1. (1)中医药指令数据集 (2)由心内科病历构建的中医辅助诊断数据集(将在未来开源)。
  2. 扁仓中医大模型以阿里通义千问Qwen-7B-Chat为底座,采用全参微调得到。

LingdanLLM


Paper:
Code: https://github.com/TCMAI-BJTU/LingdanLLM
Data: https://github.com/TCMAI-BJTU/LingdanLLM/blob/main/data

本项目旨在通过继续对百川2号模型进行预训练。训练数据集包括中医古籍、教科书和中国药典。这一过程不仅增强了模型对中医知识的理解,也为其深入掌握中医理论和实践提供了坚实的基础

其他相关数据集

TCM-SD 中医领域辨证数据集(/data/中医辨证数据集.zip)
中医治疗新冠流感支原体感染等有效病历集(/data/新冠、流感、支原体中医有效数据集.json)
中医文献问题生成数据集(/data/中医文献问题生成数据集.json)

参考

https://zhuanlan.zhihu.com/p/669025474?utm_id=0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1694743.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开关电源AC-DC(15W 3-18V可调)

简介: 该模块使用PI的TNY268PN电源芯片制作的开关电源,实现最大功率15W 3-18V可调输出(更改反馈电阻)隔离式反激电源; 简介:该模块使用PI的TNY268PN电源芯片制作的开关电源,实现最大功率15W 3-18V可调输出(更改反馈电阻,现电路图输出5V)隔离式反激电源; 一、产品简…

全域运营是本地生活服务的新模式吗?

最近,本地生活赛道又出现了一个新的说法,即全域运营是本地生活的下半场。事实上,这一论断并非空穴来风,而是有真凭实据。 作为多家互联网大厂重点布局的业务板块,本地生活的火爆程度早已有目共睹。根据多家互联网大厂…

国赛练习(1)

Unzip 软连接 软连接是linux中一个常用命令,它的功能是为某一个文件在另外一个位置建立一个同步的链接。换句话说,也可以理解成Windows中的快捷方式 注意:在创建软连接的文件的所有目录下不能有重名的文件 打开环境,是文件上传&am…

在Linux上面部署ELK

注明:一下的软件需要自己准备 一、准备环境: 1.两台elasticsearch主机4G内存 2.两台elasticsearch配置主机名node1和node2(可以省略) #vim /etc/hostname #reboot 3. 两台elasticsearch配置hosts文件 #vim /etc/hosts 192.168.1.1 node1 192…

测试基础05:软件测试的分类

课程大纲 1、两种架构(Architecture) 1.1、B/S(Browser/Server) 浏览器服务器架构(大体3步):用户通过浏览器向服务器发出请求,服务器处理请求,将结果通过网络返回到用户…

【论文阅读】AID(ICCV‘23)

paper:https://arxiv.org/abs/2310.05666 code:https://github.com/YilongLv/AID Anchor-Intermediate Detector: Decoupling and Coupling Bounding Boxes for Accurate Object Detection

F.费用报销【蓝桥杯】/01背包

费用报销 01背包 思路&#xff1a;f[i][j]表示前i个票据在容量为j的背包中能占的最大值。 #include<iostream> #include<algorithm> using namespace std; int day[13]{0,31,28,31,30,31,30,31,31,30,31,30,31}; int dp[1005][5005]; int s[13]; int last[1005];…

Dockerfile使用

1.Dockerfile是什么 官网地址 https://docs.docker.com/reference/dockerfile/概念 是什么 Dockerfile 是用于构建 Docker 镜像的文本文件&#xff0c;它包含一系列的指令&#xff08;instructions&#xff09;和参数&#xff0c;用于描述如何构建和配置镜像。 Dockerfile 是…

aws sqs基础概念和队列参数解析

分布式队列的组成部分 生产者&#xff0c;向队列发送消息的组件消费者&#xff0c;接受队列消息队列&#xff0c;多个sqs服务器存储冗余存储消息 sqs自动删除超过最大留存时间的消息&#xff08;默认4天&#xff09;&#xff0c;可以通过SetQueueAttributes调整为&#xff08…

Java语言-面向对象程序设计-自定义Date类

在Java中&#xff0c;不建议直接自定义Date类&#xff0c;因为java.util.Date和java.util.Calendar类已经提供了处理日期和时间的基本功能&#xff0c;可以使用SimpleDateFormat类格式化日期&#xff08;较常用的方式&#xff09;等。 这里将自定义封装一个Date类&#xff0c;用…

Spring框架学习笔记(五):JdbcTemplate 和 声明式事务

基本介绍&#xff1a;通过 Spring 框架可以配置数据源&#xff0c;从而完成对数据表的操作。JdbcTemplate 是 Spring 提供的访问数据库的技术。将 JDBC 的常用操作封装为模板方法 1 JdbcTemplate 使用前需进行如下配置 1.1 在maven项目的pom文件加入以下依赖 <dependencies…

通过Wirtinger流进行相位恢复:理论与算法

文章目录 1. 简介2. 算法描述2.1 初始化(Initialization)2.2 迭代更新(Iterative Updates)2.3 学习率调整&#xff08;Learning Rate Adjustment&#xff09; 3. 代码实现3.1 一维信号测试 &#xff08;Gaussian model&#xff09;3.2 一维信号测试 &#xff08;Coded diffract…

牛皮!亚信安全《2024国家级攻防演练100+必修高危漏洞合集》.pdf

上次分享了2023攻防演练高危漏洞&#xff0c;获得了很多粉丝的好评。 今天再分享一份由亚信安全服务团队结合自身的“外部攻击面管理”服务能力和专业的红队能力&#xff0c;最新发布的《2024攻防演练必修高危漏洞合集》&#xff0c;一共108页&#xff0c;非常详细&#xff0c…

存储+调优:存储-memcached

存储调优&#xff1a;存储-memcached 什么是memcached? 高性能的分布式内存缓存服务器。通过缓存数据库的查询结果&#xff0c;减少数据库访问次数&#xff0c;以提高动态Web应用的速度、提高可扩展性。 在memcached中存什么&#xff1f; 尽快被保存 访问频率高 1.数据保…

X-SCAN:Rust从零实现一个命令行端口扫描工具

0. 成品预览 本文将基于Rust构建一个常见的网络工具&#xff0c;端口扫描器。 按照惯例&#xff0c;还是和之前实现的文本编辑器一样&#xff0c;我给这个工具起名为X-SCAN,它的功能很简单&#xff0c;通过命令行参数的方式对指定IP进行扫描&#xff0c;扫描结束之后返回该IP…

MySQL--数据库--基础知识

目录 1、 数据库作用 2、sql认识 1、DDL 整数类型 浮点 主键 约束: 2、DML 插入数据 修改数据 删除数据 3、DQL-基础查询 字符函数&#xff1a; 逻辑处理&#xff1a; 数学函数&#xff1a; 日期函数&#xff1a; 分组函数&#xff1a; 条件查询: 模糊查询 LIK…

Pycharm在下载安装第三方库时速度慢或超时问题 / 切换国内镜像地址

pycharm下载第三方库速度极慢&#xff0c;搜索了一下&#xff0c;发现方法非常乱&#xff0c;稍作整理。这个问题一般都会出现&#xff0c;在我们开发中遇到的常见问题&#xff0c;根据以下解决方法&#xff0c;基本可以解决&#xff0c;但是不能100%保证 Installing packages …

算法金 | Dask,一个超强的 python 库

本文来源公众号“算法金”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;Dask&#xff0c;一个超强的 python 库 1 Dask 概览 在数据科学和大数据处理的领域&#xff0c;高效处理海量数据一直是一项挑战。 为了应对这一挑战&am…

基于open3d加载kitti数据集bin文件

前言 在自动驾驶领域&#xff0c;Kitti数据集是一个非常流行的点云数据集&#xff0c;广泛用于3D目标检测、跟踪和其他相关研究。Open3D是一个强大的开源库&#xff0c;专门用于处理和可视化三维数据。本文将介绍如何使用Open3D来加载和可视化Kitti数据集中的.bin文件。 准备…

【Qt 学习笔记】Qt窗口 | Qt窗口介绍 | QMainwindow类及各组件介绍

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt窗口 | Qt窗口介绍 | QMainwindow类及各组件介绍 文章编号&#xff…