医学数据分析实训 项目一 医学数据采集

news2025/1/13 9:21:10

项目一 医学数据采集

一、实践目的

  1. 了解医学数据的特点;
  2. 熟悉常见的医学公共数据库的使用方法;
  3. 掌握获取医学数据的方法;

二、实践平台

  1. 操作系统:Windows10 及以上
  2. Python 版本:3.8.x 及以上
  3. PyCharm 或 Anoconda 集成环境

三、实践内容

医学数据采集实验的数据来源广泛,主要包括以下几个方面:

  • 患者数据:通过电子病历系统、患者自主记录等方式收集患者的临床症状、体征、病史、用药情况等信息;
  • 医疗设备数据:利用各种医疗设备(如心电图机、超声仪、CT 扫描仪等)实时监测患者的生理参数和健康状况,生成大量医学图像和数据;
  • 实验室数据:通过实验室检测获取患者的生化指标、遗传学信息、微生物学结果等数据;
  • 外部数据源:包括公共卫生数据库、医学研究数据库等,这些数据库包含了大量的医学研究成果和临床数据,为医学数据采集实验提供了丰富的资源。

1. 熟悉常见医学公共数据库的使用方法

(1)熟悉 Kaplan-Meier Plotter 平台 https://kmplot.com/analysis/ 的使用
  • 操作过程
    • 访问 Kaplan-Meier Plotter 平台首页(图 1)。
      在这里插入图片描述

    • 输入对应参数(图 2),如基因 STAT2 和乳腺癌生存率的相关性。

    • 在这里插入图片描述

    • 生成生存率关系图(图 3),并通过文字对结果进行解释。

    • 在这里插入图片描述
      在这里插入图片描述

解释含义:(fitten code生成)

1 高表达STAT2基因的乳腺癌患者群体的生存率显著高于低表达

2 体这种差异在统计学上是显著的(Log-rank P值为9e-11)

3 STAT2基因的高表达可能与乳腺癌患者更好的生存率相关

(2)熟悉 SEER 数据库 https://seer.cancer.gov/data-software/ 的使用方法
  • 操作过程
    • 在 SEER 数据库中查询癌症数据。

    • 在这里插入图片描述
      在这里插入图片描述

    • 对查询结果(图 4)进行解释。

    • 在这里插入图片描述

解释含义:(fitten code生成)

1 从2000年到2021年,男性和女性的癌症发病率总体上保持稳定,没有显著的变化

2 男性和女性的发病率在2000年至2017年间没有显著的年度百分比变化

3 这张图表明,在2000年至2021年期间,所有癌症部位的年龄调整发病率在男性和女性中都没有显著变化

2. 使用 GEO 数据库 https://www.ncbi.nlm.nih.gov/geo 下载数据集

  • 操作步骤

    • 访问 GEO 页面(图 5)。

    • 在这里插入图片描述

    • 在 GEO 中检索肝癌(HCC)环状 RNA(circRNA)研究数据(图 6)。

    • 在这里插入图片描述

    • 选择并查看检索到的数据集(图 7)。

    • 在这里插入图片描述

    • 查看数据集的详细信息(图 8)。

    • 在这里插入图片描述

    • 下载数据集(图 9)。

    • 在这里插入图片描述

  • 查看下载的数据集文件(图 10),并对该数据集进行解释。

解释含义:(fitten code生成)

在GEO(Gene Expression Omnibus)数据库中,"ID_REF"通常表示基因或探针的标识符。在你提供的数据集中,"ID_REF"后面的数据是基因或探针的表达值,这些值对应于不同的样本(GSM编号)。
这是一个关于肝癌(HCC)环状RNA(circRNA)研究的表达矩阵。每一行代表一个特定的circRNA(由"ID_REF"标识),每一列代表一个样本(由GSM编号标识)。矩阵中的数值表示相应circRNA在相应样本中的表达水平。
例如,第一行数据:

“ASCRP000002” 9.042573151 9.238902276 8.997313248 9.4371723 8.962706649 9.415486133 9.017848355 9.524889458 9.671877122 9.479558558 9.227469787 9.409693079 8.97187312 8.96956744
CopyInsert
表示circRNA "ASCRP000002"在14个不同样本中的表达值。这些值可以用来分析circRNA在不同样本中的表达差异,从而研究其在肝癌发生发展中的作用。

3. 通过 UCI 机器学习库下载数据集

  • 操作步骤
    • 访问 UCI 机器学习库官网(https://archive.ics.uci.edu/ )。

    • 在这里插入图片描述

    • 在数据集中搜索并下载任意两个与医药卫生相关的数据集。

    • 一个是心脏病数据集,另一个是乳腺癌数据集。download the datasets.

    • 在这里插入图片描述

    • 在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

在这里插入图片描述

  • 通过文字对数据集进行解释。

解释含义:(fitten code生成)

  • 这个打开数据集,自己看吧。这里举一个例子
  • 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
- 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2133311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu 安装最新 Google Chrome 浏览器

谷歌浏览器使用简单并且用户友好,使用它浏览互联网愉悦至极。许多用户喜欢 Chrome,因为它加载网页又快又流畅。Chrome 提供强大的安全功能,帮助用户保持在线安全。Google Chrome 官方提供了一个 Debian 软件包存储库,基于 Debian …

Llama Factory :百种以上语言模型的统一高效微调框架

人工智能咨询培训老师叶梓 转载标明出处 大模型适应到特定下游任务时,传统的全参数微调方法成本高昂,因此,研究者们一直在探索更高效的微调技术。由北京航空航天大学和北京大学的研究团队提出了一个名为Llama Factory的统一框架,…

【免费刷题】实验室安全第一知识题库分享

道路千万条,实验安全第一条。 嘿,实验室的小伙伴们!是不是还在为实验室安全考试而烦恼?别担心,今天就让我来分享一些实用的题库,帮助你轻松应对考试,同时也更好地保护自己和实验室的安全。 一、…

前端开发第三节课

20-目录文件夹和根目录 4.8图像标签和路径(重点) 2.路径(前期铺垫知识) (1)目录文件夹和目录 实际工作中,我们的文件不能随便乱放,否则用起来很难快速地找到他们,因此…

LeetCode 热题 100 回顾13

干货分享,感谢您的阅读!原文见:LeetCode 热题 100 回顾_力code热题100-CSDN博客 一、哈希部分 1.两数之和 (简单) 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标…

基于SpringBoot+Vue的个性化旅游推荐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSpringBootVueMySQL的…

free -h 查看内存free空间不足

free空间不足 大部分被buff/cache占用 解决办法一: 手动释放缓存 释放页缓存 sudo sync; sudo sysctl -w vm.drop_caches1 释放目录项和inode缓存 sudo sync; sudo sysctl -w vm.drop_caches2 释放所有缓存(页缓存、目录项和inode缓存) sudo sync…

【隐私计算】安全多方计算MPC中的高效三角函数计算

隐私计算中的非线性函数很难算,或者开销很大。三角函数更是如此,Squirrel文章中提出了一种高效的计算方式,感觉可以作为一种通用优化方案。 参考文献:Squirrel: A Scalable Secure Two-Party Computation Framework for Training…

几何概率模型

一、几何概率模型 ① 样本空间的样本点为无限个 ② 每个样本点发生的可能性是均等的 ③ P(A)事件A的几何度量值/样本空间的几何度量值 说明:如果样本空间的样本点为有限个,则为古典概型 通过2个例子,来感受下两者的区别 ① 例&#xff1…

大语言模型之ICL(上下文学习) - In-Context Learning Creates Task Vectors

本文译自 《In-Context Learning Creates Task Vectors》 —— 论文中的作者也在用LLaMA模型,笔者自我感觉拉近和世界顶级人才的距离,哈哈内容较长,如想看结论直接看 摘要、介绍与结论几个章节即可,看细节请看目录索引。经验风险最…

ZoneTree: 高性能ACID兼容的.NET有序键值数据库

推荐一个专门针对键值存储的开源数据库。 01 项目简介 ZoneTree基于.Net开发的开源键值数据库。它以其持久化存储、高性能处理、事务性操作和ACID合规性而著称。ZoneTree能够以内存数据库的形式运行,也可以在本地或云存储上进行数据持久化,提供了灵活性…

人工智能物联网:一项综述

这篇论文的标题是《Artificial Intelligence of Things: A Survey》,作者是 Shakhrul Iman Siam 等人,来自不同的大学和研究机构。论文提供了对人工智能物联网(AIoT)研究的系统性和全面性回顾。以下是论文的主要内容概述&#xff…

【H2O2|全栈】关于CSS(4)CSS基础(四)

目录 CSS基础知识 前言 准备工作 精灵图 概念 属性 案例 浮动 基础属性 清除浮动 案例 预告和回顾 后话 CSS基础知识 前言 本系列博客将分享层叠样式表(CSS)有关的知识点。 接下来的几期内容相对比较少,主要是对前面的内容进…

服务网关Gateway快速入门

1.引入 网关可以把它理解成坐高铁时的安检,他可以对用户做身份验证,哪些人能通过,哪些人不能通过,都由他决定,如果没有安检,那么高铁的安全性将受到打击,一个微服务没有网关,那么接口…

大数据新视界 --大数据大厂之HBase深度探寻:大规模数据存储与查询的卓越方案

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

webpack原理简述

1.1 核心概念 JavaScript 的 模块打包工具 (module bundler)。通过分析模块之间的依赖,最终将所有模块打包成一份或者多份代码包 (bundler),供 HTML 直接引用。实质上,Webpack 仅仅提供了 打包功能 和一套 文件处理机制,然后通过生…

Mini-Omni 语言模型在流式传输中边思考边听说应用

引入简介 Mini-Omni 是一个开源的多模态大语言模型,能够在思考的同时进行听觉和语言交流。它具有实时端到端语音输入和流媒体音频输出的对话能力。 语言模型的最新进展取得了显著突破。GPT-4o 作为一个新的里程碑,实现了与人类的实时对话,展示了接近人类的自然流畅度。为了…

69、Python番外篇:从编程范式看如何学习一门编程语言的精髓

引言 在之前的文章中,我们曾聊过如何学习一门编程语言,当时是从程序的构成的角度来分析、展开的,主要提及了数据的表达 数据的处理,也就是数据结构 算法的内容。这个角度对应到所有编程语言,基本都是适用的。但是&a…

认识泛型和包装类

认识泛型和包装类 包装类基本数据类型和对应的包装类装箱和拆箱自动装箱和自动拆箱 什么是泛型引出泛型语法 泛型类的使用语法示例类型推导 裸类型(Raw Type)说明 泛型如何编译的擦除机制 泛型的上界语法示例复杂示例 泛型方法定义方法示例使用类型推导和不用类型推导静态的泛型…

电脑安装OpenWRT系统

通过网盘分享的文件:OpenWRT 链接: https://pan.baidu.com/s/1nrRBeKgGviD31Omji480qA?pwd9900 提取码: 9900 下面开始教程: 1.先把普通U盘制作成一个PE启动盘,我用的是微PE工具箱,直接安装PE到U盘。 2.把写盘工具和openWRT系统…