数据科学家,被誉是“21世纪最性感的职业”。
如今,一股数据科学的热潮正席卷国内各大高校。今年十月底,一系列数据科学的网络直播课在多所大学火爆异常,吸引来自北大、清华、北师大、哈工大、浙大等多所高校学生广泛参与。
该系列网络课堂是数据科学产教融合计划下的一项公益活动。在教育部产教融合号召的大背景下,数据科学产教融合计划脱颖而出,该计划由国内数据科学领域明星企业、多所高校共同发起,旨在促进数据科学从业人员能力的整体提升,为数据科学产业发展提供人才保障。
数据科学火爆的背后,恰恰源自近年来数据科学市场的迅速崛起。随着数字经济快速发展、数据成为最重要生产要素,数据科学的价值在产业数字化中加速得到彰显,使得数据科学成为万亿数字化市场中当之无愧的“价值担当”。
数据科学:黄金时代下的“人才尴尬”
世界经济论坛(WEF)《新经济下的数据科学—第四次工业革命中的数据科学人才竞争》报告指出,数据科学在未来将是多个行业关键的基础技能。
数据科学是什么?为何它能展现出如此强的魅力?
Master’s in Data Science网站介绍,数据科学是一个使用科学方法从数据中提取意义和洞察的研究领域,包括了制定数据分析策略、为分析准备数据、开发数据可视化和构建数据模型等方面。
“数据科学的核心是完成三个转换:把数据转换为信息,信息转化为知识,以及用知识去支持决策。它具有综合性的一系列方法,目标是做数据在业务侧的价值实现。”百分点科技集团数据科学研究院院长杜晓梦博士如是说,“数据科学天然与大数据紧密相关,机器学习、运筹优化等都属于数据科学的分支,但它不包含人工智能仿真、机器人等研究。”
无疑,数据科学属于一门综合型学科,综合了数学、统计学、计算机技术以及领域知识等。数据科学家们往往还需要在这些技术与知识的基础上,具备沟通和解决问题的能力,能把具体的业务问题转化为数学问题。
事实上,数据科学一词最早诞生于上个世纪60年代,2000年之后开始出现数据科学家的职位。随着2010年大数据概念兴起,数据科学逐渐获得了各行各业的重视。例如,大部分互联网企业最近几年均设立了独立的数据科学团队;而金融、电信、医疗等传统行业,对于数据科学人才的渴求度同样在迅速提升。
数据科学之所以受到前所未有的关注,是因为随着数字化进程的加深以及数据要素化,数据驱动型组织不再是虚幻的概念,而是一步步转变为企业的现实目标,数据科学在此过程的价值与作用逐渐彰显,乃数字化进程中的必然趋势。
但数据科学的综合型学科性质,也注定成才难度指数属于天花板级。当下,数据科学虽然火爆,亦遇到略显尴尬的局面:一方面,各个行业数字化转型的深入,产生出旺盛的数据科学人才需求;另一方面,高校虽然重视数据科学人才,但面临着培养难度大、所学难所用等难题,很难符合企业实际需求。
教育部一位工作人员透露,当下数据科学相关人才缺口是百万级的,虽然开设数据科学与大数据技术相关专业的高校已达到近700所,不同层次的高校都在加大数据科学的人才的培养力度,但无论人才数量还是质量都与实际需求尚有差距。
南方某985重点大学一位教师直言道:“老师们擅长基本功的培养,但数据科学与实际业务问题的实践息息相关,学校很难提供这方面的培养,需要高校与产业界共同突破。”
因此,携手业界领先的数据科学企业,改变传统培养方式,加入实践、实操等环节就成为人才培养的突破口。就如数据科学产教融合计划,由产业界企业将多年的实践经验、软件、工具与案例整体给高校,为高校学生提供脱敏数据、完整工具、前沿经验等进行实操培训。
“这几年,数据科学产业界变化很快,像数据编织、AI工程化等发展迅速。现在产业界做项目的思路、逻辑和方法与三年前是完全不同的。”杜晓梦博士如是说,“数据科学产教融合计划可以确保将产业界最新、最前沿的实践和方法传递给高校学生。”
据悉,百分点科技集团是国内数据科学领域的代表企业,也是数据科学产教融合计划的发起者之一,其提供集成全栈技术的数据科学基础平台,为广大高校学生提供了实操的真实环境。“与教培软件产品不同,数据科学基础平台脱胎于企业级软件产品,成熟、稳定且不会让学生有脱节感,一切围绕真实业务场景展开,并且会定期更新版本。”杜晓梦博士补充道。
如果说,数据科学产教融合是产业发展的必然结果;那么,数据科学在产品、服务等领域的突破,则标志着数据科学经历过泡沫期之后,真正步入产业黄金期。那么,数据科学市场到底正在发生什么?呈现出哪些重要的新趋势?中国数据科学市场又会朝着哪些方向发展?
扛起“价值担当”,数据科学有这些新趋势
早在2014年,Gartner就在新技术成长曲线中将数据科学列入膨胀期的末端,并表示未来五年数据科学将逐步应用于生产高地期(plateau of Productivity)。
事实情况的确如预测那样。随着数字化进程的加速,数据科学在各行各业数字化转型中扮演着重要的角色,其市场也获得了前所未有的成功。联合市场研究报告显示,2020年全球数据科学平台市场规模为47亿美元,预计到2030年将达到797亿美元,复合年增长率高达33.6%。
事实上,市场的快速发展让数据科学呈现出诸多明显的新趋势。首先,市场向上期和巨大的潜力,吸引了不同类型的市场参与者都涌向数据科学市场,这其中既有IBM、微软等老派厂商,也有AWS、阿里云等云服务商,还有像Palantir、SAS、百分点这些坚守数据科学领域多年的专业厂商,甚至不断涌现出一大批初创企业。
中关村大数据产业联盟一位专家认为,与机器视觉遇到泡沫化境遇不同,数据科学市场的潜力远未爆发出来,国内外相关企业可成长与发挥的空间明显更大。例如,Aporia、Black Crow AI、Comet、dotData、杉树科技等国内外创业公司近年来普遍获得了资本市场的青睐。
数据科学第二个重要的趋势无疑就是端到端的数据科学应用平台,平台与工具加速走向集成化、工程化、自动化。Gartner在《2021 数据科学与机器学习(DSML)平台魔力象限》报告中认为,数据科学与机器学习平台必须实现全生命周期的数据科学活动,并且具备集成第三方组件、框架的能力。
Gartner认为,数据科学与机器学习平台未来重要的发展趋势包括:自动化或增强数据处理、模型构建、在线服务的各项工作;多人协作是用户使用数据科学的刚需;开放性,如与开源工具的广泛集成能力等。
事实上,数据科学在产品层面的新趋势并不是无迹可循。一方面,企业数字化转型所面临的数据环境、业务联系、数据处理链路加速走向复杂化,加速了数据科学平台化的需求;另一方面,随着各大企业的数据科学团队配备走向规模化和正规化,数据科学团队往往需要工程化程度高的平台来屏蔽基础工作的复杂度,提升数据应用创新的效率。
当下,有预见性的领先厂商均在瞄准端到端的数据科学应用平台。例如,AWS在今年re:Invent大会上详细介绍了其端到端数据战略,推动数据处理、分析与应用走向高效化和自动化;其他像Palantir Foundry和Apollo、SAS Viya等均为平台化思路的产品。在国内,百分点科技等国内厂商亦在端到端数据科学平台的代表。
“过去,大家都是在各个行业中探索数据价值大多数属于项目型,往往会研发出各种半工具化的产品。如今,数据科学公司自身多年行业实践与打磨之后,工具产品走向成熟,具备了走向平台化的基础;另外,从用户数字化转型的需求来看,端到端的数据应用需求是大势所趋,更加需要集成化、工程化、服务化的平台来满足用户需求。例如,像高度集成、开箱即用的一体机形式,在各大云平台的云版本等,都是数据科学平台不断发展的体现。”百分点科技集团首席技术官刘译璟解释道。
第三个重要趋势,数据科学正加速在各大传统行业的应用与落地。除了互联网企业在几年前就陆续将数据科学团队部署到业务之中外,像金融、航空、制造、医疗等行业龙头的数据文化、组织架构以及数据思维都在不断成长,积极推动数据科学在业务场景中的应用。
而数据科学平台化的产品趋势,有利于行业复杂业务能力的沉淀与赋能,进一步降低了数据科学在行业用户中的门槛。例如,国内像华为云、百分点科技等数据科学代表公司,都在强调其对于行业业务模型的沉淀与积累,行业用户无需从头投入,加速了端到端数据应用的落地。
一位制造业的数字化负责人直言:“同行经过业务验证过的业务模型很有价值。通过借鉴,再结合自身情况,对于我们业务场景的数据应用能够少走弯路。”
中国数据科学市场或迎爆发
与国外市场相比,中国数据科学市场的增长速度和市场潜力更值得期待,未来几年或迎来爆发期。
当下,中国数字经济的快速发展给中国数据科学市场夯实了前景广阔的外部市场环境。尤其是近年来数据要素化的步伐在提速,对于数据流动、共享、分析与应用带来更多便利。今年六月,中央深改委审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》,再次强调促进数据高效流通使用、赋能实体经济以及加快构建数据基础制度体系。
另外,经过多年的信息化与数字化建设,中国各个行业的数字化转型正在开启新的阶段,很多行业用户在数据采集、治理等方面完成阶段性工作,数据驱动型业务成为接下来的主旋律,数据科学在其中的作用与价值将会愈发突出。
以数据量最丰富领域之一政务领域为例,国务院十月发布的《全国一体化政务大数据体系建设指南》指出,随着数据治理阶段性工作结束,在2023年底前,全国一体化政务大数据体系有望初步形成,接下来重点是基于数据的应用与创新。
更加重要的是,中国数据科学的产业生态正在稳步形成和高速发展。生态中既有像阿里云、华为云、AWS云服务平台商,也有聚焦数据科学领域多年的专业厂商,更有像运筹优化求解器、机器学习平台、BI等数据科学细分领域众多初创企业。例如,百分点科技就是国内聚焦数据科学领域多年的代表,其在政务、融媒、公安、应急管理等多个行业扎根多年,一直推动数据科学在各个行业的应用与实践。
在数字化人才方面,教育部未来计划投入4000亿进行数字化人才培养,很重要的方向之一就是聚焦大数据、人工智能、数据科学相关的人才培养,未来有望解决数据科学领域人才匮乏的局面。
总体来看,数据科学在过去五十多年里一直都在坐“冷板凳”,外部条件和市场环境的限制,使得数据科学并未受到重视和充分发挥价值。随着大数据的兴起以及数据要素化的提速,数据驱动的需求走向井喷,数据科学也真正迎来了“春天”。面向未来,数据科学有望在更多行业与场景中发挥更大作用,在数字化转型中扛起“价值担当”。