世界人工智能大会中“数据+标注”相关的关键词浅析

标注猿的第79篇原创
一个用数据视角看AI世界的标注猿

大家好，我是AI数据标注猿刘吉，一个用数据视角看AI世界的标注猿。

在国家级数据标注基地建设任务下发后的两个月时间里，全国各地政府、各个高校都快速行动了起来，数据行业变得空前的热闹。与数据标注行业2024年上半年的寒冷形成了鲜明的对比。

市场从数据标注服务需求转向了对数据和数据价值需求，而这一转变对于已有数据标注公司来说挑战是非常巨大的。不仅仅是转型那么简单的逻辑，从目前来看大部分已有的标注企业不具备应对这一改变的能力。

首先还是跟小伙伴们汇报一下最近相关工作的重点内容，主要做了三方面的事情，第一方面是组建了一个可以做大模型标注项目的项目组，第二方面积极在与高校沟通，推进数据标注实训平台进入高校，第三方面在做"数据+标注+AIGC实战教程"的课程。对以上三方面感兴趣的小伙伴们欢迎私信交流。

言归正传，这几天的世界人工智能大会和之前的几届比较感觉要热闹的多，遗憾的是这次没有去上，只能看线上直播。这一感觉也从数据中得到了证实，

截至6日下午2点，大会线下参观人数突破30万人次，全网流量突破19亿，比上届增长90%，均创历史新高。大会共对接132个采购团组，形成126个项目采购需求，预计意向采购金额150亿元，推动24个重大产业项目签约，预计总投资额超400亿元。

对于应用场景和数据相关内容的讨论尤为热烈，本文就围绕着数据标注行业相关的内容和大家从以下的方面做一个分享交流。从我个人学习到的内容挑出三个关键词：

数据
人才
安全

一.数据

首先对于数据简单的做一个科普，让大家对数据概念有一个基本一致的认知，在我国《数据安全法》中是这样定义数据：

数据是指任何以电子或者其他方式对信息的记录，是对客观事物（如事实、事件、事物、过程或思想）的记录或描述，既包括“数字”，也包括声音、图像等模拟形式。

而从不同的形式也会有不同的分类，我们从常见的几种形式分类进行说明：

按生成对象：与物有关和与事有关
按存储形式：结构化、半结构化和非结构化数据
按权属不同：公有数据和私有数据
按数据类型：文本数据、音频数据、视频数据、图像数据

对于数据标注来说，我们更多接触到的形式主要以按存储形式和按数据类型形式来进行区分。

而对于数据部分，这次大会中我获取到的信息也可以用三个关键词来概况：

缺数据

对于大模型来说是极其消耗数据的，据网上信息来看GPT目前已经消耗完了所有公开的数据。

并且在6月27号，OpenAI与《时代》周刊达成达成了一项多年内容授权协议和战略合作伙伴关系。该协议允许OpenAI将这家出版商的内容引入ChatGPT，并帮助训练其最先进的人工智能(AI)模型。据新闻稿介绍，OpenAI可以通过这笔交易访问《时代》过去100多年的档案和文章，以训练其AI模型，并在其面向消费者的产品(如ChatGPT)中用于回复用户的询问。

而这里面有两个非常重要的信息，第一个数据在经历一轮“跑马圈地”的时代，第二个100年跨度的数据价值对于大模型来说也非常有价值。

从我目前粗浅的认知中理解，数据是具有时效性的，100年前的数据对于现在来说，除了可以当做一种资料被搜索外还有哪些作用？难道是要利用大模型“涌现”的特性，看看是否可以迸发出更多的价值么？

行业数据

不管是在人工智能的初期还是现在，算法如何的进步，最终都要回到行业中来，但现在有个本质的区别就是数据处理的能力和精细度变的不一样了。

而相同的就是行业数据壁垒依然存在，行业数据都存在于每个公司里面，而每个公司中的数据在之前又没有进行有效的加工处理，对于每个公司来说很难想象到这些数据到底哪些有价值哪些没有价值，该如何让其发挥应有的价值。

基于大模型的基础能力加上行业数据很快就可以完成场景大模型的迭代，使得行业数据的需求也更加迫切。
数据处理成本高

虽然对于标注行业来讲，价格目前已经在人力成本临界值徘徊了，但对于AI研发来说，成本依然还是很高的。

这部分所指的成本高，不同于之前的数据标注，更多制约在标注工具上，而大模型使我们在处理数据时不再局限在细节的处理了，例如在NLP阶段，我们更多处理的是分词、关系等，而大模型通过自注意力机制等算法可以解决很多基础部分的工作。

而更多需要具有业务专业型专家来解决行业问题，比如具体行业的QA对知识解答等。

但好的一点是，对于大模型标注来说，数据标注工具会更通用，数据也更通用了。

二.人才

对于大部分人来说目前大模型、AIGC等都还是非常陌生的，再加之目前技术迭代太快，导致大部分人都学不过来了，当然也包括我在内。刚看到一个新的东西还没研究明白呢，又有其他更好的出来了，在某某排行榜上的比分又非常高了。

这样就让身在其中的我们又兴奋又无力，兴奋的是我们正在处于一个快速发展的机遇时代，无力的是让我们无从下手，该去做些什么。看似能做很多事情，真要做了又不知从何做起。

当然这可能也是目前行业的缩影，这里我们不去讨论高端算法人才部分，只针对人工智能基础数据部分人才和数据标注人才部分。

由于对于数据+标注需求和预期的改变，对于人才的需求也发生了变化，从能简单执行到专业人才的转变。从根据需求的服务到行业场景的方案定制，从人员管理到资源整合，更多需要的是具有学习能力的专业复合型人才。

而对于行业应用场景部分，需要更多可以使用大模型的人才，可以更好的释放企业已有数据的价值，可以在配合开源或者大模型服务商提供的服务来结合企业自身数据达到私有化大模型的目的。

这部分也是目前我们比较看中的部分，我们在开发相关学生教程的同时，也开发了数据标注实训平台和“数据+标注+AIGC实战教程”课程，重点和学校深入合作来培养更多专业型人才服务行业，我们能提供的是“实训平台+课程+项目”一整套的体系搭建。这部分也非常欢迎学校或者有学校资源的小伙伴来交流。

三.安全

对于数据安全来说，从开始我理解的数据流通环节安全到多维度价值对齐的安全。这里面我印象深刻的是提出的“中国价值观数据”，分享一下学习到关于多维度价值对齐语料库的原则这部分内容：

伦理价值：遵循社会道德规范和法治精神
1. 基础伦理语料：伦理价值的理论基石与基本规范，包括伦理体系，话语体系，法律法规等。
2. 历史文化语料：时代特色、地域特色特点伦理思考与积淀。
3. 现实生活语料：伦理价值的实现图景和生活案例，包括家常理短、心路历程、热点思潮等。
情绪价值：满足情感认同、交流和成长需求
1. 自愈成长语料：情感疗愈、自我实现与提升。
2. 互动共鸣语料：分享、陪伴、怀旧等人际社交需求与情感共鸣。
3. 自娱探索语料：个体对新鲜体验与个人乐趣的追求。
社会价值：社会公平争议与可持续创新发展
1. 社会和谐语料：社会有序和民心安定的具象呈现，包括国家、地方和基层等多层次制度体系及治理经验等。
2. 社会发展语料：国家、社会和民众的创新发展及追求美好生活的具体实践。
3. 全球治理语料：人类和平与发展、构建人类命运共同体的远大理想和现实需求。
技术价值：推动科技创新与可控可治
1. 风险评估语料：人工智能潜在风险系统分析与预判。
2. 风险检测语料：人工智能应用风险实时追踪、预警及策略应对。
文化价值：提升文化素养和促进文明互鉴共进
1. 中国元素语料：当代中国人的美好追求、审美情趣、人文情怀，包括食、景、人、物等。
2. 传统文化语料：中华文明的根基与灵魂，包括非物质文化（语言文字、诗词歌赋、传统技艺、民间习俗、文化创意等）与物质文化（古迹、艺术品等）
3. 全球文化语料：不同文明的智慧结晶和交流互鉴，包括各国代表性文化元素、文学经典、艺术作品、世界名曲、宗教典籍、文化遗产等。