宋爽:利用大数据解码遗传学的秘密 | 提升之路系列(七)

news2024/10/5 13:14:57

3cb583be45fdb4eb12c2dd096c755ccc.png


导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

b96d85061f9392922398592c932b1343.png

图1:摄于清华大学清华路

一、在兴趣和专业中与大数据项目结缘

我对数据科学的热爱,既有一种发自内心的向往,也很大程度上源于自己清华数学系的四年本科时光。特别是在接触概率和统计课程后,逐渐发现从数据中提取经验和精华,研究事物的发展规律,探数寻理是一件很奇妙的事情。本科毕业时,我直博进入清华大学统计学研究中心,开始在导师指导下做数据科学的具体研究。在一次偶然的机会,我看到了“大数据能力提升项目”的推送,我非常认同这个项目的培养理念,非常喜欢这个项目的课程设计与教学安排,觉得这对于专业学习会带来很好的帮助和启发,就怀着期待的心情报名并与之结缘。利用大数据的知识去分析解读纷繁复杂的生物数据,理解生物学规律,解码遗传学奥秘,可以与我的兴趣结合,把所学理论付诸实践,由此我也更加明确了自己的研究方向,利用大数据解码遗传学,在大数据中“淘金”。

二、在大数据项目学习中收获与成长

我在大数据项目中选修的第一门课是朱文武老师的大数据分析课程,这门课让我对大数据机遇、挑战与方法等问题有了更深层次的理解,拓宽了我的思路,使自己对统计与大数据学习等有了相对清晰的方向和比较完整的框架。随着课程深入,我在大数据项目中学习到了更多更深的统计理论和深度学习算法。在此过程中,我也努力把项目课程与博士专业课程有机结合,相互促进、互为补充,体会了触类旁通的惊喜。

得益于该项目的专业训练,我有意识培养和锻炼自己的大数据思维,将所学大数据知识应用科学研究和社会实践,解决遗传学的实际问题。比如在人类复杂疾病的预测中,由于人类基因组单核苷酸多态性位点通常为百万量级,数据规模、维数巨大,利用传统的回归模型无法解决。因此我利用所学的贝叶斯回归的方法,对于遗传位点效应加入压缩先验,并最小化贝叶斯风险,取得了预测效果的极大提升。我们还利用机器学习、深度学习算法对染色质开放度进行预测,并研究染色质开放度对人类复杂疾病的影响。

边学习、边实践、边探索、边提高。在博士前三年,我发表SCI论文11篇,并获得1项软著。一作论文连续三年获得百济神州青年论文二等奖、优秀论文奖等。参加北京生物医学统计与数据管理研究会年会并作为优秀论文获奖者作报告;一作论文入选全国高校研究生统计论坛并作报告;一作论文受邀在华人基因组学在线沙龙(CGM)平台作报告;一作论文被中国自动化大会接收,并参加海报展示;参加美国统计协会联合统计学会议,美国人类遗传学会议等。在疫情期间,我参与清华大学“流行病学传播预测与对策”项目,对疫情传播进行统计建模,被评为“清华大学抗击新冠肺炎疫情先进集体”。希望能够尽自己的一份力量,为战胜疫情做出贡献。

12377980c2cdedef6e6a77ec51fbaf6c.png 9844bd7da71cb62c23244a4e75d17a9d.png

10d6da9cb451cc24b241ebdf1f89f985.pngea3e79c5a2a351e8ec844c123e9544cb.png

图2左:第一作者论文参加自动化大会海报;右:第一作者论文被BioArtMED报道

三、在大数据与学科交叉的道路上不断前行

在2022年10月,我前往英国牛津大学继续开展自己的大数据学习和研究。在大数据能力提升项目中,我学习了数据的收集、清洗、处理,建模等,以及各种编程软件的使用。这也帮助我快速适应了解数据,分析数据,在这个新环境中更加自信,对未来的研究更加充满期待。

8ed961fe247240cc1a52ccd744b2b931.png 

0b770fcaad5700c59bdebc1dcf63ff0c.png

图3:摄于牛津大学图书馆前

“非学无以广才,非志无以成学”,沐浴着清华灿烂的阳光,汲取大数据能力提升项目丰富的养料,在梦想的璀璨星河里畅游驰骋,在追梦的道路上脚踏实地,迈向远方。我希望能够不忘初心,砥砺前行,去迎接更大的挑战。

编辑:于腾凯

校对:王欣

2b46e834800a067516498fb408ecfa7a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/484269.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Git】Gitee免密push(TencentCloudLinux)

前提: 我用的是腾讯云的Centos(Linux)服务器 我创建好了仓库 我配置过git 可以正常用密码push 以上自行解决 我们直接配置公钥解决免密push 1.在服务器上创建公钥 在用户根目录创建 公钥 邮箱写自己的 随意写 我写的是gitee绑定的邮箱 ssh-keygen -t ed25519 -C…

第四期 微信云开发之订阅消息以及定时发送(触发器)

前言 在我们开发过程中,很多场景都会使用到微信小程序订阅消息功能,例如打卡通知、订餐通知等等。但是在云开发过程中,没有后台的情况下,如何进行消息的定时通知呢?下面我将从小程序订阅消息到定时发送订阅消息进行一个…

改进YOLOv5:结合位置编码CoordConv,提升行人目标等预测能力 | 卷积加上坐标,从而使其具备了空间感知能力

CoordConv:给卷积加上坐标,从而使其具备了空间感知能力 核心代码CoordConv代码common代码:yolo注册yaml文件:测试众所周知,深度学习里的卷积运算是具有平移等变性的,这样可以在图像的不同位置共享统一的卷积核参数,但是这样卷积学习过程中是不能感知当前特征在图像中的坐标…

STM-32:SPI通信外设

目录 一、前言二、SPI功能框图三、SPI通信读写数据 一、前言 STM32的SPI外设可用作通讯的主机及从机,支持最高的SCK时钟频率为fpclk/2 (STM32F103型号的芯片默认 fpclk1为 36MHz,fpclk2为 72MHz),完全支持 SPI协议的4种模式,数据…

RestTemplate 请求第三方网站数据 定时插入到数据库

目录 0 课程视频 1 RestTemplate-> 是Web Http 客户端请求 模板工具 1.1 使用RestTemplate -> 选择执行引擎 Http客户端请求工具 1.2 执行引擎 Http客户端请求工具 1.2.1 JDK HttpUrlConnection 1.2.2 Apache HttpClient 1.2.3 OkHttp 1.2 升级版 -> WebClien…

Android 12.0 Launcher3仿ios长按app图标实现抖动动画开始拖拽停止动画

1.概述 在12.0的系统rom定制化开发中,在对系统原生Launcher3的定制需求中,也有好多功能定制的,在ios等电子产品中 的一些好用的功能,也是可以被拿来借用的,所以在最近的产品开发需求中,需求要求模仿ios的 功能实现长按app图标实现抖动动画,接下来看如何分析该功能的实现…

Centos7快速安装Logstash 7.17.7并实现MySQL中数据导入Elasticsearch

可以通过以下命令在线安装 Logstash 7.17.7 sudo rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch sudo rpm -ivh https://artifacts.elastic.co/downloads/logstash/logstash-7.17.7-x86_64.rpm安装完成后,需要添加环境变量 export PATH$PATH:…

ARM处理器的指令集(3)

ARM处理器的指令集 一、数据处理类指令 数据处理指令只能对寄存器的内容进行操作,而不能对内存中的数据进行操作,所以ARM数据处理指令均可以选择使用S后缀,以影响状态标志位。 影响状态标志位的命令: MOVS–>数据传送指令&am…

java servlet 农机租赁网站系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 java servlet 农机租赁网站系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助 系统采用 serlvetdaobean 模式开发 ,系统具有完整的源代码和数 据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,M…

[架构之路-179]-《软考-系统分析师》-19- 系统可靠性分析与设计 -1- 故障模型、可靠性模型、可靠性分析

目录 前言: 1 9 . 1 系统可靠性概述 19.1.1 系统故障模型 1. 在信息系统中,故障或错误有如下儿种表现形式: 2. 故障的缘由 3. 故障模型 (1)逻辑电路级的故障 (2) 数据结构级的故障 &a…

【大数据Hadoop】HDFS3.3.1-Datanode-DataStorage的实现原理

DataStorage的实现原理 前言Storage类继承关系StorageInfoStorage.StorageStateStorage.StorageDirectory文件夹操作加锁/解锁操作存储状态恢复操作 StorageDataStorage 前言 Datanode 最重要的功能就是管理磁盘上存储的 HDFS 数据块。Datanode 将这个管理功能切分为两个部分&…

确定不进来看看吗?详细讲解C语言文件操作(示例分析每个函数)

前言 🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏: 🍔🍟🌯 c语言初阶 🔑个人信条: 🌵知行合一 🍉本篇简介:>:讲解c语言中的文件操作,文件的读取,输入输出,流的概念…

【分布式搜索引擎03】

分布式搜索引擎03 11.9.数据聚合11.9.1.聚合的种类11.9.2.DSL实现聚合11.9.2.1.Bucket聚合语法11.9.2.2.聚合结果排序11.9.2.3.限定聚合范围11.9.2.4.Metric聚合语法11.9.2.5.小结 11.9.3.RestAPI实现聚合11.9.3.1.API语法11.9.3.2.业务需求11.9.3.3.业务实现 11.10.自动补全&a…

AMBA协议-AXI协议详解(读写时序、Outstanding、乱序传输、原子操作)

目录 1. AXI 写通道信号 1.1. 写地址通道信号 1.2. 写数据通道信号 1.3. 写response通道信号 1.5. 握手规则 1.4. AXI 写通道之间关系 2. AXI 读通道信号 2.1. 读地址通道信号 2.2. 读数据通道信号 2.3. AXI 读通道之间关系 3. AXI传输 3.1. AXI突发读传输 3.2. …

EventBus(事件总线)的使用和源码的简单解析

Google Guava EventBus(事件总线)的使用和源码的简单解析 什么是EventBus? 事件总线(EventBus)是一种广泛用于软件架构中的设计模式,用于实现解耦和松散耦合的通信机制。它可以帮助组织和管理应用程序中不同组件之间的通信&…

【SQL篇】面试之高级查询和连接

603 连续空余座位 select distinct c1.seat_id from Cinema c1 join Cinema c2 on abs(c2.seat_id-c1.seat_id) 1 where c1.free1 and c2.free1 order by c1.seat_id;总结 思路:为什么我们这里需要abs和distinct,如果是如下代码,为什么不可…

[架构之路-178]-《软考-系统分析师》-17-嵌入式系统分析与设计- 3- 分区操作系统(Partition Operating System)概述

目录: 本文概述: 1.1 什么是分区操作系统 1.2 分区操作系统出现背景 1. 前后台系统(Foreground/Background System) 2. 实时操作系统(RTOS) 本文概述: 随着嵌入式系统日趋复杂化以及对安全性要求的不断提高,采用空间隔离、时…

[计算机图形学]光场,颜色与感知(前瞻预习/复习回顾)

一、Light Field / Lumigraph—光场 1.我们看到的是什么 我们的眼睛能够把3D世界转换为2D的成像信号被我们感知,如上面第一幅图,这就是我们看到整个世界的过程,那么如果我们把之前记录的光的信息都完美的放在一个幕布上,那么我们…

第15章 信息(文档)和配置管理

文章目录 软件文档的分类(1)开发文档:描述开发过程 本身(2)产品文档:描述开发过程的 产物(3)管理文档:记录项目管理的信息 文档的质量可以分为四级(1&#xf…

第二十五章 刚体Rigidbody

在物理学中,静止和匀速直线运动是物体的平衡状态,如果给该物体施加某一个力的话,物体的平衡状态就会改变,当然这个真理的前提是理想状态。我们知道在现实世界中,由于重力和摩擦力的存在,任何一个物体都不可…