达尔文——生物医疗科学领域大模型

news2024/11/15 19:44:46

在这里插入图片描述
在这里插入图片描述
赛灵力官网

在这里插入图片描述
在这里插入图片描述

1. 生物医疗领域的挑战

1.1 复杂性

在这里插入图片描述

生物系统和生物过程非常复杂,包含大量的相互作用和调控机制,理解和解析这些复杂性是一项巨大的挑战。
举例来说,单单一个人类,体内的生物信息就非常复杂:

  • 人类体内体内平均大约生活着1,000种不同种类的细菌
  • 单个测序的人类基因组大约为140GB
  • 人类基因组含有约31.6亿个DNA 碱基对

1.2 数据爆炸

在这里插入图片描述

生物领域产生的数据呈爆炸性增长,包括基因组数据、表型数据、蛋白质数据等,这些数据的规模和复杂性使得传统方法难以有效处理和分析。

  • 文献数量增长:PubMed 数据库中的生物医学文献数量不断增加。目前 PubMed 包含超过 3,500 万篇生物医学文献
  • 随着测序技术的发展,基因组数据量呈爆炸性增长。NCBI 的 Sequence Read Archive (SRA) 数据库收录了 7亿亿级别的 的测序数据。

1.3 知识碎片化

在这里插入图片描述

生物科学领域存在大量的碎片化知识,散布在各种文献、数据库和研究中,整合和理解这些知识是一项困难的任务。

  • 生物医疗专科增多,学科交叉:生物医疗领域涉及多个学科的知识,如生物学、化学、医学、计算机科学等。学科交叉的增加使得研究人员需要具备多学科的知识,而且跨学科合作也面临知识整合的挑战。同时,医学领域不断出现新的专科和亚专科,涉及各种疾病和治疗方法。根据美国医学会的数据,医学专科已经超过180个,导致医学知识的分散和碎片化。
  • 数据分散罕见:病历、药物信息、试验结果数据的分散性使得生物医疗领域难以综合和比较不同的数据。全球已知的罕见病约有7,000多种, 而在分类更为细致的疾病数据库Malacards上的统计一共有14000多种

2. 达尔文模型核心优势

在这里插入图片描述

2.1 RDDC数据中心

在这里插入图片描述

背靠赛业生物,赛灵力有专业的生物科研数据库——RDDC。 RDDC 罕见病数据库
罕见病数据中心(RDDC)由清华珠三角研究院人工智能创新中心与赛业生物联合研发提供生物和遗传技术支持。RDDC专注于基因及遗传相关数据呈现,充分利用遗传大数据进行生物人工智能工具的开发。目前,我国尚无公共的罕见病数据库,现有的国际疾病数据库也没有对罕见病的展示模式以及大多数研究者关心的相关问题提供足够清晰的可视化展示。RDDC的目的是帮助医生、大学和研究机构的研究人员以及罕见病患者及其家属快速、直观地了解他们感兴趣的罕见病。RDDC还通过数据库整合国内罕见病相关资源,为罕见病科学研究提供全面的数据档案。

  • 在**基因方面,RDDC已经收集了600GB+**的人类、小鼠、大鼠等物种的基因信息
  • 疾病页面,RDDC收集了130GB+的数据,包括 Malacards、OMIM、Orphanet、ClinVar等开源数据库的信息以及罕见病联盟提供的本地疾病信息。
  • 在**小鼠模型领域,RDDC收集了50GB+**的许多文献中使用的各类基因编辑小鼠模型数据

在“海量、中英文、高质量、通用开源”数据,以及专业上进行预训练,即续写(预测下一个词)。再次基础上,RDDC 的各类生物医学数据(如 临床与生物文本、DNA序列、基因表达。蛋白质等等)也用于“达尔文”大模型(通用开源数据以外)进一步的预训练,赋予“达尔文”大模型在生物医疗领域比一般通用大模型具备更有竞争力的表现

2.2 科研强化

在这里插入图片描述
RLHF 是指"Reinforcement Learning from Human Feedback",即从人类反馈中进行强化学习。它是一种强化学习方法,通过与人类交互来训练智能体,并从人类提供的反馈中进行学习和改进。
RLHF 的目标是利用人类的专业知识或经验来加速强化学习过程,尤其是在环境动态或奖励函数复杂的情况下。它可以通过人类提供的示例轨迹、偏好或评估来引导智能体的学习过程。
背靠赛业,数百名生物领域的专业研究员为我们达尔文提供专业知识和经验,来训练反馈模型,以指导“达尔文”大模型的强化学习

2.3 生物AGI

在这里插入图片描述
大语言模型的兴起,带动当下最热门的研究方向之一就是:基于大语言模型(如 GPT4)的AI代理(如 AutoGPT、AgentGPT)。
AI代理能够通过自动循环来执行任务。它能够自主决策并调用外部应用工具、模型接口等来完成各种任务(如 查询天气、搜索引擎、计算器、天气、模型库(语音识别模型)等等),并通过循环评估策略实时评估目标当前的达成程度。
AI代理技术 能够处理更为复杂的任务。展示了真正的AGI(通用人工智能) 的雏形,即:一个可以自我完善、具备完成各种任务能力的AI
达尔文大模型 指令微调(instruction tuning)训练,除了进行常规的指令(如问答、摘要等),我们基于赛业生物在多年在生物领域技术的沉淀,构造了更丰富的生物垂类领域指令进行训练。使其拥有决策与调用各类生物信息AI工具能力,实现生物领域的通用人工智能:

  • RNA Splicer :预测碱基突变是否引起mRNA剪接位点变化,并详细分析和显示预测结果
  • Patho Predict :利用机器学习中的xgboost方法预测碱基突变引起的疾病效应水平。预测结果可分为四个致病性级别:良性、疑似良性、疑似致病性和致病性
  • 小鼠表型预测模型: Patho Predict 工具基于 Ensembl VEP 来预测突变对小鼠表型的影响。与其他现有预测工具相比,Patho Predict可以更准确地预测新发现突变的表型效应
  • ASO Predict :通过计算ASO与目标区域碱基序列的结合能以及其他碱基配对指标(如ASO的GC百分比、ASO的自由能等)来预测最佳ASO候选序列
  • SNP可视化工具:可以查看输入基因的突变分布和突变状态,方便突变热点和位点的查询
  • 小鼠到人类基因表达预测模型:基于线性表达法结合Bootstrap方法的AI模型,可以根据小鼠直系同源基因表达输入来预测人类基因的表达变化
  • Pathway Analysis :在线通路富集工具,可以直观地展示富集后通路中基因表达的变化。
    工具还在持续丰富中……

2.4 火山方舟

在这里插入图片描述
在这里,我们还要非常感谢我们的合作伙伴——字节跳动火山引擎。
就在前些天,6月28日,在2023火山引擎V-Tech体验创新科技峰会上,火山引擎发布大模型服务平台“火山方舟”。“火山方舟” 包含模型广场、模型体验、模型训练推荐以及模型应用的功能,其使命是加速大模型和大算力的应用落地,加快大模型在各行业发挥商业价值。
赛灵力和字节跳动火山引擎深度合作,得到大模型服务平台“火山方舟”的强劲GPU算力支持,加速了“达尔文”大模型的训练学习。
带给大家一个好消息,“达尔文”大模型将入驻火山引擎大模型生态,上架至“火山方舟”的模型广场,补全火山引擎大模型生态的生物医疗领域,并供大家使用与反馈。

火山方舟

3. 应用案例

在这里插入图片描述

3.1 面向个人

在这里插入图片描述

  • 在线问诊:在线智能问诊是指用户通过与智能助手进行对话,获取初步的医疗咨询和建议。助手可以提供常见症状的解释、推荐适当的医疗检查或建议咨询医生的时间。尽管在线智能问诊可以提供有用的信息,但它不是替代真正医疗专业人员的诊断和治疗。
  • 线下导诊:线下智能导诊是指智能助手在医疗机构的实际场景中提供导诊服务。当患者到达医院或诊所时,助手可以与患者进行对话,了解症状、查询病历、指导患者到正确的科室或医生那里就诊。这有助于提高就诊流程的效率,并为患者提供更好的导诊体验。
  • 诊后随访:智能助手可以在患者就诊后进行随访服务。通过与患者的对话,智能助手可以了解患者的康复情况、用药情况等,并提供相关的建议和回答患者的疑问,以及在必要时提醒患者进行复诊或进行特定的健康管理。

2.2 面向科研

  • 文献调研:智能助手可以根据科研人员的需求,提供基于专业科研文献的信息检索和分析服务。科研人员可以通过与智能助手的对话,快速获取相关领域的最新研究成果、技术手段和方法论等信息,以支持其科研工作。
  • 药物研发:智能助手可以协助生物科技企业或医药公司进行药物研发工作。通过与研发人员的对话,智能助手可以提供药物相关的数据库查询、药物设计和筛选、药效预测等方面的支持,以加快药物研发的速度和效率。
  • 基因解读:智能助手可以通过与科研人员的对话,提供针对基因组数据的问答服务。科研人员可以向智能助手提供基因组数据,然后与其进行对话,获得关于基因组信息、基因突变、潜在疾病风险等方面的问题的回答。智能助手可以解释基因组数据的含义,帮助科研人员理解个人或样本的基因组信息,并提供相关的解释、分析和建议。这种智能问答服务可以支持科研人员在基因组研究中的数据解读和分析工作,加快研究的进展和发现。

2.3 面向企业

在这里插入图片描述

  • 虚拟专家IP:智能助手可以模拟生物、医疗企业的领袖专家形象,通过与用户的对话,提供专业领域的知识分享、意见建议等服务。这种虚拟人形象可以为企业树立专业形象,提升企业的知名度和品牌形象。举例;”马叔来啦“,从单方面的内容(如 视频号)输出 -> 双向的专家与用户一对一互动
  • 数智销售:智能助手可以通过与潜在客户的对话,了解客户的需求和偏好,并根据客户的情况推荐合适的生物、医疗产品。智能助手可以提供产品的特点、优势和适用范围等信息,帮助客户做出购买决策。
  • 数智客服:智能助手可以协助客户解答关于生物、医疗产品的使用方法、维护保养、故障排除等方面的问题。智能助手可以通过与客户的对话,提供技术支持和解决方案,以满足客户的需求和解决客户的问题。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/735548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Django_re_path_使用正则匹配url

与path定义的路由相比,re_path 定义的路由可以使用正则表达式匹配url。 需要注意的是: 如果未定义匹配结果的变量名,匹配的结果默认传入视图的第2个形参。如果定义了匹配结果的变量名,匹配的结果会传给视图的同名字段&#xff0…

从零开始学习自动驾驶决策规划

从零开始学习自动驾驶决策规划 从入门到掌握的一系列讲解,其中涵盖的内容如下: 前言课 第一节-ros工程的创建 第一节-运行环境和工程目录简介第二节-工程运行和小车模型搭建简介 第二节-车辆里程计第三节-整体架构思路 第三节-地图路线构建方法 第三节…

Packet Tracer – 配置静态 NAT

Packet Tracer – 配置静态 NAT 目标 第 1 部分:测试不使用 NAT 的访问 第 2 部分:配置静态 NAT 第 3 部分:测试使用 NAT 的访问 拓扑图 场景 在 IPv4 配置网络中,客户端和服务器使用专用编址。 然后,在含专用编址…

MATLAB---线性规划问题求最优解(含例题)

线性规划是运筹学的基础,在现实企业经营中,如何有效的利用有限的人力、财力、物力等资源。 MATLAB 为方便大家理解,这里我们直接用一个例题为大家讲解使用matlab求解线性规划问题。 根据上图给出的线性规划问题。我们使…

SpringBoot 如何使用 @ExceptionHandler 注解进行局部异常处理

SpringBoot 如何使用 ExceptionHandler 注解进行局部异常处理 介绍 在开发 Web 应用程序时,异常处理是非常重要的一部分。SpringBoot 提供了多种方式来处理异常,其中之一是使用 ExceptionHandler 注解进行局部异常处理。使用 ExceptionHandler 注解&am…

哈工大计算网络课程数据链路层详解之:数据链路层服务

哈工大计算网络课程数据链路层详解之:数据链路层服务 在介绍完网络层的实现功能和协议之后,接下来我们继续介绍网络层的下一层:数据链路层。 本节首先对数据链路层的功能和所提供的服务进行概述。 如下图示例网络所示,标红色的部…

【二分查找】34. 在排序数组中查找元素的第一个和最后一个位置

34. 在排序数组中查找元素的第一个和最后一个位置 解题思路 使用二分查找查找到目标元素的索引之后然后向左以及向右寻找目标元素,然后记录下区间位置 然后保存下来 class Solution {public int[] searchRange(int[] nums, int target) {// 使用二分查找 数组有序…

Java使用Stream API对于数据列表经常处理

Java使用Stream API对于数据列表经常处理 先提供一些简单到复杂的常见例子&#xff0c;您可以根据这些例子进行进一步的开发和学习&#xff1a; 数据过滤筛选操作 查询表中所有数据&#xff1a; List<User> users userDao.getAllUsers();根据条件查询单个结果&#…

别测了,背锅上线!

三百六十行&#xff0c;行行都背锅。 用例千万条&#xff0c;质量第一条。 流程不规范&#xff0c;亲人两行泪&#xff01; 每次上线后多多少少都有些问题&#xff0c;每次的项目总结会总会生产一口新锅&#xff0c;等着你我他来背&#xff0c;这不又要上线了&#xff0c;这次…

华为OD机试真题 Java 实现【快递投放问题】【2023 B卷 100分】,附详细解题思路

目录 一、题目描述二、输入描述三、输出描述四、Java算法源码五、效果展示1、输入2、输出 一、题目描述 有N个快递站点用字符串标识&#xff0c;某些站点之间有道路连接。每个站点有一些包裹要运输&#xff0c;每个站点间的包裹不重复&#xff0c;路上有检查站会导致部分货物无…

基于kubernetes组件初步部署k8s

基于k8s组件初步部署k8s kubernetes组件kubernetes简单化部署安装Master操作环境检查安装配置Containerd安装Containerd配置containerd启动containerd 配置Circtl安装配置Kubeadm安装Kubeadmkubeadm配置启动kubelet服务 拉取镜像初始化集群操作命令行 安装网络插件 Node操作Nod…

Dubbo分布式服务框架,springboot+dubbo+zookeeper

一Dubbo的简易介绍 1.Dubbo是什么&#xff1f; Dubbo是一个分布式服务框架&#xff0c;致力于提供高性能和透明化的RPC远程服务调用方案&#xff0c;以及SOA服务治理方案。 简单的说&#xff0c;dubbo就是个服务框架&#xff0c;如果没有分布式的需求&#xff0c;其实是不需…

N天爆肝数据库——MySQL(1)

数据库概念理解 数据库 DB 存储数据的仓库 数据库管理系统 DBMS 操纵和管理数据库的大型软件 SQL 操作关系型数据库的编程语言&#xff0c;定义了用一套操作关系型数据库同意标准 学习 SQL 的作用 SQL 是一门 ANSI 的标准计算机语言&#xff0c;用来访问和操作数据库系统。S…

在北京买房究竟需要多少钱?

无论是来北京前&#xff0c;还是来北京后&#xff0c;每每提起北京的房价&#xff0c;大家都会说出三个字「买不起」。 确实&#xff0c;北京房价非常贵&#xff0c;但是究竟「贵」到什么程度&#xff0c;我们却无法说出一个数。 几年前&#xff0c;我研三还没毕业时&#xf…

Linux高频常用指令汇总

目录 认识 Linux 目录结构 绝对路径&#xff1a;以根目录开头的, 称为绝对路径 相对路径&#xff1a;不是根目录开头的,称为相对路径 ls pwd cd mkdir touch cat echo rm cp mv vim编辑器 1、进入文件 2、进行编辑模式 3、保存退出 重要的几个热键[Tab],[ct…

SpringBoot中间件——封装限流器

背景 通常能知道一个系统服务在正产增速下流量大小&#xff0c;扩容与压测也是基于此。若有突发或者恶意攻击访问&#xff0c;都要将流量拦截在外。这部分功能不属于业务侧&#xff0c;它是通用非业务的共性需求&#xff0c;所以我们将共性抽取为限流中间件。 方案设计 图解&…

基于微信小程序的高校食堂点餐系统设计与实现(Java+spring boot+MySQL+微信小程序)

获取源码或者论文请私信博主 演示视频&#xff1a; 基于微信小程序的高校食堂点餐系统设计与实现&#xff08;Javaspring bootMySQL微信小程序&#xff09; 使用技术&#xff1a; 前端&#xff1a;html css javascript jQuery ajax thymeleaf 微信小程序 后端&#xff1a;Java…

指针-->笔试题(必备)

前言&#xff1a; 目录 前言&#xff1a; 本章介绍的指针笔试题是有点难度的&#xff0c;得花费一点时间来理解&#xff0c;并且我们在做题目的时候需要画图来理解。 文章目录 笔试题1 笔试题2 笔试题3 笔试题4 笔试题5 笔试题6 笔试题7 笔试题8 笔试题1 int main() {int a[5…

uniapp下载和上传照片

利用uniapp开发的时候&#xff0c;需要下载和上传照片&#xff0c;在H5和微信小程序中的写法不一样。 H5环境下 浏览器中下载就是模拟超链接下载。也不需要获取什么权限&#xff0c;比较简单。 // #ifdef H5 this.isLoading true; let oA document.createElement("a&…

[软件工具]姓氏谐音梗随机生成工具使用教程

首先我们打开软件 输入姓氏和生成数即可开始生成&#xff0c;注意生成数可以随便填&#xff0c;软件会自动按最大数生成&#xff0c;比如你设置生成数位10000则可能只会生成500个&#xff0c;因为软件内置只有这么多。单次生成不重复&#xff0c;生成效果可以访问视频教程&…