智源研究院举办第一期数据与行业应用Workshop

news2024/9/22 19:43:12

近日,北京智源人工智能研究院联合中国互联网协会人工智能工委会、中国AIIA联盟数据委员会、CSDN举办了以“行业革新,数据先行”为主题的第一期数据与行业应用Workshop。来自智源研究院、中国信息通信研究院、航天信息技术有限公司、北京市科学技术研究院、北大法宝的专家学者们分享了行业数据集与医疗示范模型训练的探索实践,千万级指令微调数据集构建经验,面向大模型的数据工程以及大模型在财税、政务、法律等领域的落地应用。

智源研究院副院长兼总工程师林咏华出席活动并致辞。林咏华指出,数据已成为驱动模型性能提升的关键因素。当前,中文数据集与全球英文数据集建设相比还存在较大差距,期待与各方共同拓展中文数据类型,提高中文数据质量,打破数据孤岛,实现数据共享。

为解决大模型垂直领域训练数据稀缺与质量问题,智源研究院联合中国互联网协会启动了“行业数据集-场景应用创新计划”,广泛征集开展行业模型训练的场景创新需求。此前,智源推出了包含3.4TB开源数据和1.0TB高质量数据的行业数据集Industry Corpus 1.0,覆盖18个行业,预训练和行业指令两种数据类型。该行业数据集应用方式灵活,可按语种、行业进行灵活组合配比。其中,预训练数据处理使用了基于“规则+模型”的多重质量提升方案,指令数据处理则使用了基于“指令复杂性+回复质量+多轮相关性”的筛选方案,以确保数据质量。

当前,指令数据集优化方法多以独立同分布假设,较少考虑指令内容的整体联合分布,指令数据集微调效果比较受限。智源从能力分布、指令信息量等多个角度出发,构建了千万级规模的主客观指令数据集 Infinity Instruct,并系统性探究了不同内容、不同类型指令对模型能力的影响以及指令优化与学习过程。

除了海量的高质量训练数据集,大模型训练与测试还需要高效的自动化数据工程和可信的全流程数据治理方法。中国信息通信研究院人工智能研究所高级工程师李荪表示:“大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点,数据工程贯穿于大模型全生命周期。面向大模型的数据工程核心旨在提升大模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素。”

大模型发展至今已在财税、政务和法律等垂直场景应用落地。例如,航天信息技术有限公司正在探索航信政务大模型在智能咨询、审查、分析、创作以及流程自动化等场景落地。北京市科学技术研究院构建的北科院政务大模型,可对各类信息进行快速分析、处理与反馈,应用于智能问答、文本撰写、文章速读、知识库管理、文档智能标签、数据分析等场景。目前大语言模型在法律行业的应用大多以RAG(检索增强生成)系统支持的应用性Copilot(助理)形式为主,普遍缺乏法律专业性逻辑的微调。北大法宝尝试从数据学角度对法律数据进行对象化、图谱化处理,将人类的理解行为进行公式化表达,提出了“智慧法库”与“智能法典”的概念构思。

智源研究院希望通过系列活动,激发更多关于数据与行业应用的创新思维,为人工智能技术的进步贡献力量。扫描下方二维码加入智源数据社区,即可获取本次Workshop的全部PDF资料,欢迎您的加入!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2038995.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学习记录第二十七天

进程 wait函数 功能 等待子进程结束:父进程调用wait函数后,会暂停执行,直到它的某个子进程结束。收集子进程状态:当子进程结束时,wait函数会返回子进程的终止状态,包括是正常终止还是被信号终止等信息。…

单链表leetcode刷题/中(C语言版)

目录 题目1:合并两个有序链表 题目2:分割链表 题目3:随机链表的复制 “单链表leetcode刷题/上”的链接:https://blog.csdn.net/2302_80297338/article/details/140409360?spm1001.2014.3001.5501 题目1:合并两个有…

Ecovadis认证评估的四个方面 Ecovadis评估结果呈现形式

Ecovadis的认证过程严谨,基于国际公认的标准和准则进行评估。获得Ecovadis认证的企业,在社会责任、环境保护、商业道德和可持续采购等方面的表现得到了专业认可,这有助于提升企业的信誉度和透明度,增强利益相关者的信任。 Ecovad…

【CTF | WEB】003、攻防世界WEB题目之xff_referer

文章目录 xff_referer题目描述:解题思路:XFF与Referer基本了解1. XFF(X-Forwarded-For):2. Referer:简单总结: 解题实操: xff_referer 题目描述: X老师告诉小宁其实xff和referer是可以伪造的。…

在 Linux 系统中下载 Python 并配置环境

哈喽,大家好,木易巷来啦! 在 Linux 系统中下载 Python 并配置环境,主要包含以下几个核心步骤: ▍1、安装 Python 多数 Linux 发行版已预装 Python,但您可能需要安装不同版本或更新现有版本。 打开终端。 …

SpringBoot(Ⅰ)——HelloWorld和基本打包部署+Pom依赖概述+@SpringBootApplication注解+自动装配原理+约定大于配置

前言 如果SSM学的比较好,那么SpringBoot说白了就两件事:约定大于配置和自动装配 SpringBoot不会提供任何的功能拓展,完全依赖我们手动添加 所以SpringBoot的本质是一个依赖脚手架,可以快速集成配置各种依赖 1.1 SpringBoot相关依赖 创建…

失败:Windows--WSL2--Ubuntuon--Docker

编写目的: 在Windows上安装Docker,用Docker安装Gitlab、Jenkins等软件。 文章记录一下Windows上安装Docker的过程。 参考文档: 旧版 WSL 的手动安装步骤 | Microsoft Learn 下面用"参考文档"代替 目录 第一步:启…

学习计算机网络(三)——IP地址

一、IP协议(IPV4、IPV6) 表示形式(两种): 点分十进制、二进制 地址被点分为4个部分,每个部分8位,总共32位。 A、B、C类地址都是单播地址(一对一通信),D类…

谷粒商城实战笔记-175~177-商城业务-检索服务-检索查询接口开发

文章目录 一,175-商城业务-检索服务-检索查询参数模型分析抽取二,176-商城业务-检索服务-检索返回结果模型分析抽取三,177-商城业务-检索服务-检索DSL测试-查询部分四,178-商城业务-检索服务-检索DSL测试-聚合部分问题记录解决方案…

redis散列若干记录

字典 redis本身使用字典结构管理数据 redis使用hash表实现字典结构 使用了什么hash算法 使用SipHash算法,该算法能有效防止Hash表碰撞,并有不错的性能 hash冲突怎么解决 使用链表法解决hash冲突 hash表如何扩容 渐进式扩容,不会引起线程长期阻…

趣味算法------可截断素数

目录 题目描述: 思路解析: 质数判断函数: 反转函数: 右截断素数判断函数: 左可截断素数: 具体代码: 题目描述: 左截断素数是不包含 0 位的素数,当连续删除第一个数…

大四生都在的用8款AI论文生成器在线网站!

在当前的AI技术浪潮中,智能AI写作工具已经成为了学术研究和论文撰写的重要助手。对于大四生来说,选择合适的AI论文生成器可以大大提高写作效率和质量。以下是8款值得推荐的AI论文生成器在线网站: 一、千笔-AIPassPaPer 这是一款功能全面且高…

花几千上万学习Java,真没必要!(四十六)

Lambda表达式: 测试代码1: package test.lambda; public class LambdaDemo { // 实现Runnable接口的类 static class MyThread implements Runnable { Override public void run() { System.out.println("线程运行中:通过实现Runn…

【智能流体力学】ANSYS Fluent流体仿真基础、深度学习驱动思想及其CAX计算机辅助集成技术

目录 一、CAX计算机辅助集成技术二、计算机辅助工程(CAE)三、SCDM (Species Concentration Display Model) 显示和分析物质浓度分布的模型1. **SCDM概述**2. **主要功能**3. **功能特点**4. **使用步骤**5. **应用实例**6. **优点与限制**四、行业应用五、Fluent 软件功能1. …

Datawhale AI 夏令营 第四期 AIGC Task2

活动简介 活动链接:Datawhale AI 夏令营(第四期) 以及AIGC里面的本次任务说明:Task 2 精读代码,实战进阶 和上次任务一样,链接里的教程非常详细,对小白非常友好,从使用AI助手理解…

网工内推 | 网络、集成工程师,最高17K,NP以上认证优先

01 广东南方新媒体股份有限公司 🔷招聘岗位:网络工程师 🔷岗位职责: 1、负责基础设施运维管理,包括机房环境设备、网络设备、安全设备与服务器等,负责机房设备上架、下架、位置调整、布线等的常规操作。…

day36——homework

二、基于UDP的TFTP文件传输 1)tftp协议概述 简单文件传输协议,适用于在网络上进行文件传输的一套标准协议,使用UDP传输 特点: 是应用层协议 基于UDP协议实现 数据传输模式 octet:二进制模式(常用&am…

数据同步工具DataX

目录 1.概要 2.简介 3.DataX处理异构数据源 4.DataX的框架 5.DataX的核心架构 6.DataX的安装 7.DataX的使用案例 8.mysql同步到mysql案例 1.概要 本篇文件将介绍一款数据同步工具DataX的原理,安装,以及使用。 2.简介 官网连接:https…

STL经典案例(二)——公司招员工

需求:公司招了十个员工ABCDEFGHIJ,公司有五个部门,公司随机给这十个员工分配薪水,并且随机将这十名员工分配到不同的部门。 员工类中成员属性为姓名和工资,成员方法为设置姓名、设置工资、获得姓名、获得工资 部门有五…

Electron 开发桌面应用程序用于对接USB Audio Class协议

开发用于对接USB Audio Class协议的Electron桌面应用程序是一个复杂的任务,可能涉及多个开源库和项目的组合。以下是一些开源项目和库,它们可以帮助你实现这个目标: 1. Electron Electron 是一个用于构建跨平台桌面应用程序的框架。你可以使…