近日,北京智源人工智能研究院联合中国互联网协会人工智能工委会、中国AIIA联盟数据委员会、CSDN举办了以“行业革新,数据先行”为主题的第一期数据与行业应用Workshop。来自智源研究院、中国信息通信研究院、航天信息技术有限公司、北京市科学技术研究院、北大法宝的专家学者们分享了行业数据集与医疗示范模型训练的探索实践,千万级指令微调数据集构建经验,面向大模型的数据工程以及大模型在财税、政务、法律等领域的落地应用。
智源研究院副院长兼总工程师林咏华出席活动并致辞。林咏华指出,数据已成为驱动模型性能提升的关键因素。当前,中文数据集与全球英文数据集建设相比还存在较大差距,期待与各方共同拓展中文数据类型,提高中文数据质量,打破数据孤岛,实现数据共享。
为解决大模型垂直领域训练数据稀缺与质量问题,智源研究院联合中国互联网协会启动了“行业数据集-场景应用创新计划”,广泛征集开展行业模型训练的场景创新需求。此前,智源推出了包含3.4TB开源数据和1.0TB高质量数据的行业数据集Industry Corpus 1.0,覆盖18个行业,预训练和行业指令两种数据类型。该行业数据集应用方式灵活,可按语种、行业进行灵活组合配比。其中,预训练数据处理使用了基于“规则+模型”的多重质量提升方案,指令数据处理则使用了基于“指令复杂性+回复质量+多轮相关性”的筛选方案,以确保数据质量。
当前,指令数据集优化方法多以独立同分布假设,较少考虑指令内容的整体联合分布,指令数据集微调效果比较受限。智源从能力分布、指令信息量等多个角度出发,构建了千万级规模的主客观指令数据集 Infinity Instruct,并系统性探究了不同内容、不同类型指令对模型能力的影响以及指令优化与学习过程。
除了海量的高质量训练数据集,大模型训练与测试还需要高效的自动化数据工程和可信的全流程数据治理方法。中国信息通信研究院人工智能研究所高级工程师李荪表示:“大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点,数据工程贯穿于大模型全生命周期。面向大模型的数据工程核心旨在提升大模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素。”
大模型发展至今已在财税、政务和法律等垂直场景应用落地。例如,航天信息技术有限公司正在探索航信政务大模型在智能咨询、审查、分析、创作以及流程自动化等场景落地。北京市科学技术研究院构建的北科院政务大模型,可对各类信息进行快速分析、处理与反馈,应用于智能问答、文本撰写、文章速读、知识库管理、文档智能标签、数据分析等场景。目前大语言模型在法律行业的应用大多以RAG(检索增强生成)系统支持的应用性Copilot(助理)形式为主,普遍缺乏法律专业性逻辑的微调。北大法宝尝试从数据学角度对法律数据进行对象化、图谱化处理,将人类的理解行为进行公式化表达,提出了“智慧法库”与“智能法典”的概念构思。
智源研究院希望通过系列活动,激发更多关于数据与行业应用的创新思维,为人工智能技术的进步贡献力量。扫描下方二维码加入智源数据社区,即可获取本次Workshop的全部PDF资料,欢迎您的加入!