导读
为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
我是土木工程系 2019 级博士生毛灵栋。我报名参加大数据能力提升项目是在我刚入学的一年级。当时我的想法非常朴素,不为科研、不为就业,纯粹是出于对大数据的兴趣。于是我和土木系几个关系要好的同学一起报名了这个项目。回过头看,大数据项目带给了我非常多的收获,不仅让我了解了大数据,跟上了时代的浪潮,更提升了我各方面的综合能力。下面我将从三个方面阐述我的能力提升。
图 1 个人生活照
一、 大数据实践能力
我参加了4门大数据课程,分别是大数据分析(A)、人工智能、深度学习和大数据实践课。以小组大作业为契机,我完成了1次探索,1项竞赛,1篇论文。一次探索是大数据分析课的小组课题,我们组基于人民网的海量文本数据开展了公众环保投诉和政府回应分析,我确定了3万多条环保投诉的所对应省份和污染类别,在此基础上进行进一步的统计分析。这次探索是我的首次跨学科体验,也让我深刻体会到大数据所蕴含的巨大能量。一项竞赛是通过深度学习课程,参加了Kaggle平台举办的全球小麦检测竞赛,如图2所示,任务目标是实现图片中所有小麦头的自动检测,助力农业决策,最终我们小组成绩在全球两千多组中位列前10%。一篇论文是出自大数据实践课的城市空地自动识别项目,部分成果如图3所示。我们基于高分辨率遥感影像数据和语义分割技术实现了中国36个主要城市的空地大规模自动识别,解决了传统识别方法人力成本高的问题,为各个国家和地区的城市空地大规模自动识别提供了有力的实践途径。
图2 全球小麦头检测任务
图3 城市空地自动识别结果(左:福州市,右:哈尔滨市)
二、算法落地能力
通过完成各种课程作业任务,我快速熟悉掌握了Python、C++、R等多项编程语言,并不断积累编程经验。同时,在由小到大的任务实践过程中,我也逐步培养起了系统工程的观念意识。从大数据分析(A)课程前期写几行统计分析的代码断断续续、不停查看帮助,到人工智能课程中能够实现简易的拼音输入法、下棋AI和手写数字识别,再到深度学习课程参加Kaggle全球小麦检测竞赛,以及在大数据实践课的空地自动识别项目中建立工程框架、编写各个模块,灵活实现自身想要的功能,我的编程思维和技能在反复实践中不断得到训练和提升。
算法落地能力的提升对于我的科研工作也有巨大好处。学习多项编程语言的经验使我触类旁通,能够为了看懂课题组以前的代码和一些开源软件而快速入门Fortran。系统工程观念则为我开发基于课题组的弱形式求积元法(QEM)的结构分析软件(见图4)奠定了坚实的基础。我将软件架构拆解为各个模块,包括单元、材料、荷载、约束等前处理模块,分析求解模块,以及后处理模块等,并基于Python实现了多模块集成。每当我有了新的科研成果,我都会将相应功能在软件框架中进行实现,这既提升了我的科研生产力,也让我收获了成就感。
图 4 QEM 结构分析软件框架
三、 团队意识和统筹能力
大数据项目相关课程有非常多的小组作业,这是对团队协作的考验。在3次课程小组大作业中,我担任了两次组长。深度学习与大数据实践课中我都与一起报名的同学组队,组员间相互熟悉、积极沟通。作为组长,我结合各组员的擅长领域进行明确的分工和统筹进度安排,保证了进度的稳步推进。在深度学习课程中参加的Kaggle全球小麦检测竞赛中,截止作业汇报当日的小组排名位于全球排行榜前5%。在大数据实践课为期八周的城市空地自动识别项目中,我们组每周召开组会向导师汇报进展,总结问题和安排下周具体计划,最终圆满完成预期任务,取得了优秀团队奖(见图5)。这些小组合作经历让我深刻意识到团队沟通协作的重要性,要取得理想成果离不开所有成员的共同努力。
图 5 大数据实践课优秀团队奖
除了以上三方面能力的提升,大数据项目还给我带来了很多意想不到的好处。例如我将大数据实践课的小组成果整理为论文发表于城市规划领域顶刊 Landscape and Urban Planning。这也是我的第一篇论文, 让我经历了论文发表完整流程的训练,为我之后发表博士课题相关工作积累了重要经验。
回顾过往点滴,我深知我只是在众多清华学子中最平凡的一员。但无论今后 路通向何方, 我都发自内心地认为,参加大数据能力提升项目,是我在清华最有意义的选择之一。博观而约取,厚积而薄发。唯有不断扩充自身的知识技能储备,才能顺应这个快速变革发展的时代。而在大数据项目中的所学所获,必然成为我今后道路的牢固基石。
编辑:于腾凯
校对:林亦霖