数据决定了大模型的“智力”边界。当前,在通用领域,大模型初步呈现了一定的场景应用能力,然而,在医疗健康、教育等垂直领域,大模型所展现的能力尚不足以支持专业应用,其主要原因在于模型训练缺乏高质量可用的行业数据集。
为解决大模型垂直领域训练数据稀缺与质量问题,推动大模型在千行百业的应用创新与发展,中国互联网协会和北京智源人工智能研究院正式启动“行业数据集-场景应用创新计划”。
智源研究院将在6月底面向社会开放“行业数据集-场景应用创新计划”第一期非开源、高质量的行业数据集及示范模型案例参考,覆盖医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻、农业10大行业。
依托智源研究院提供的高精准度的行业数据集,现面向全国企事业单位、科研教育机构、有自研能力的大模型企业,广泛征集开展行业模型训练的场景创新需求,欢迎有志于推动垂直行业大模型创新应用的组织踊跃参与!
参与方式
1、线上申请(即日起至7月15日)
填写【行业数据集-场景应用创新计划】第一期需求收集表。
申请链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcnoftHAXa9CZJ9los8PaeUPghttps://jwolpxeehx.feishu.cn/share/base/form/shrcnoftHAXa9CZJ9los8PaeUPg
说明:仅限医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻、农业10类行业,同一机构提报行业类型不超过2个,需要介绍自身在行业大模型的技术与应用情况、对行业数据集的具体需求以及拟基于智源研究院行业数据集开展的模型训练设想。
扫描二维码加入官方数据群
2、签署数据使用规范协议(7月16日-7月20日)
经中国互联网协会、人工智能工委会、智源研究院联合审核,第一批参与该计划的企业和组织,需签署数据使用规范协议,智源研究院将提供相关数据集资源。
3、提交模型技术报告(7月21日-9月21日)
参与方需要按时提交技术报告、模型效果、应用效果(文字描述、视频demo),具体形式可选。
4、应用创新案例汇集、评选与推广(9月22日-10月15日)
中国互联网协会、人工智能工委会将组织应用创新案例汇集、评选、推广活动,鼓励代表性企业进行试用,进行数据集的实际应用测试,根据用户试用反馈,评估数据集在实际场景中的表现和价值。
智源研究院将提供技术支持,协助解决数据与应用中的技术问题,制定数据集评价标准,帮助使用方科学评估数据集应用效果,并根据反馈调整、迭代和优化数据集。
5、应用创新案例评选
10月初公布第一期优秀典型案例评选结果。