宋爽：利用大数据解码遗传学的秘密

宋爽：利用大数据解码遗传学的秘密 | 提升之路系列（七）

news2026/3/24 10:44:32

导读

为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。

图1：摄于清华大学清华路

一、在兴趣和专业中与大数据项目结缘

我对数据科学的热爱，既有一种发自内心的向往，也很大程度上源于自己清华数学系的四年本科时光。特别是在接触概率和统计课程后，逐渐发现从数据中提取经验和精华，研究事物的发展规律，探数寻理是一件很奇妙的事情。本科毕业时，我直博进入清华大学统计学研究中心，开始在导师指导下做数据科学的具体研究。在一次偶然的机会，我看到了“大数据能力提升项目”的推送，我非常认同这个项目的培养理念，非常喜欢这个项目的课程设计与教学安排，觉得这对于专业学习会带来很好的帮助和启发，就怀着期待的心情报名并与之结缘。利用大数据的知识去分析解读纷繁复杂的生物数据，理解生物学规律，解码遗传学奥秘，可以与我的兴趣结合，把所学理论付诸实践，由此我也更加明确了自己的研究方向，利用大数据解码遗传学，在大数据中“淘金”。

二、在大数据项目学习中收获与成长

我在大数据项目中选修的第一门课是朱文武老师的大数据分析课程，这门课让我对大数据机遇、挑战与方法等问题有了更深层次的理解，拓宽了我的思路，使自己对统计与大数据学习等有了相对清晰的方向和比较完整的框架。随着课程深入，我在大数据项目中学习到了更多更深的统计理论和深度学习算法。在此过程中，我也努力把项目课程与博士专业课程有机结合，相互促进、互为补充，体会了触类旁通的惊喜。

得益于该项目的专业训练，我有意识培养和锻炼自己的大数据思维，将所学大数据知识应用科学研究和社会实践，解决遗传学的实际问题。比如在人类复杂疾病的预测中，由于人类基因组单核苷酸多态性位点通常为百万量级，数据规模、维数巨大，利用传统的回归模型无法解决。因此我利用所学的贝叶斯回归的方法，对于遗传位点效应加入压缩先验，并最小化贝叶斯风险，取得了预测效果的极大提升。我们还利用机器学习、深度学习算法对染色质开放度进行预测，并研究染色质开放度对人类复杂疾病的影响。

边学习、边实践、边探索、边提高。在博士前三年，我发表SCI论文11篇，并获得1项软著。一作论文连续三年获得百济神州青年论文二等奖、优秀论文奖等。参加北京生物医学统计与数据管理研究会年会并作为优秀论文获奖者作报告；一作论文入选全国高校研究生统计论坛并作报告；一作论文受邀在华人基因组学在线沙龙（CGM）平台作报告；一作论文被中国自动化大会接收，并参加海报展示；参加美国统计协会联合统计学会议，美国人类遗传学会议等。在疫情期间，我参与清华大学“流行病学传播预测与对策”项目，对疫情传播进行统计建模，被评为“清华大学抗击新冠肺炎疫情先进集体”。希望能够尽自己的一份力量，为战胜疫情做出贡献。