世界人工智能大会中“数据+标注”相关的关键词浅析

news2024/10/6 2:01:11

  标注猿的第79篇原创  
 一个用数据视角看AI世界的标注猿   

大家好,我是AI数据标注猿刘吉,一个用数据视角看AI世界的标注猿。

在国家级数据标注基地建设任务下发后的两个月时间里,全国各地政府、各个高校都快速行动了起来,数据行业变得空前的热闹。与数据标注行业2024年上半年的寒冷形成了鲜明的对比。

市场从数据标注服务需求转向了对数据和数据价值需求,而这一转变对于已有数据标注公司来说挑战是非常巨大的。不仅仅是转型那么简单的逻辑,从目前来看大部分已有的标注企业不具备应对这一改变的能力。

首先还是跟小伙伴们汇报一下最近相关工作的重点内容,主要做了三方面的事情,第一方面是组建了一个可以做大模型标注项目的项目组,第二方面积极在与高校沟通,推进数据标注实训平台进入高校,第三方面在做"数据+标注+AIGC实战教程"的课程。对以上三方面感兴趣的小伙伴们欢迎私信交流。

言归正传,这几天的世界人工智能大会和之前的几届比较感觉要热闹的多,遗憾的是这次没有去上,只能看线上直播。这一感觉也从数据中得到了证实,

截至6日下午2点,大会线下参观人数突破30万人次,全网流量突破19亿,比上届增长90%,均创历史新高。大会共对接132个采购团组,形成126个项目采购需求,预计意向采购金额150亿元,推动24个重大产业项目签约,预计总投资额超400亿元。

对于应用场景和数据相关内容的讨论尤为热烈,本文就围绕着数据标注行业相关的内容和大家从以下的方面做一个分享交流。从我个人学习到的内容挑出三个关键词:

  • 数据

  • 人才

  • 安全

一.数据


首先对于数据简单的做一个科普,让大家对数据概念有一个基本一致的认知,在我国《数据安全法》中是这样定义数据:

数据是指任何以电子或者其他方式对信息的记录,是对客观事物(如事实、事件、事物、过程或思想)的记录或描述,既包括“数字”,也包括声音、图像等模拟形式。

而从不同的形式也会有不同的分类,我们从常见的几种形式分类进行说明:

  • 按生成对象:与物有关和与事有关

  • 按存储形式:结构化、半结构化和非结构化数据

  • 按权属不同:公有数据和私有数据

  • 按数据类型:文本数据、音频数据、视频数据、图像数据

对于数据标注来说,我们更多接触到的形式主要以按存储形式和按数据类型形式来进行区分。

而对于数据部分,这次大会中我获取到的信息也可以用三个关键词来概况:

  • 缺数据

对于大模型来说是极其消耗数据的,据网上信息来看GPT目前已经消耗完了所有公开的数据。

并且在6月27号,OpenAI与《时代》周刊达成达成了一项多年内容授权协议和战略合作伙伴关系。该协议允许OpenAI将这家出版商的内容引入ChatGPT,并帮助训练其最先进的人工智能(AI)模型。据新闻稿介绍,OpenAI可以通过这笔交易访问《时代》过去100多年的档案和文章,以训练其AI模型,并在其面向消费者的产品(如ChatGPT)中用于回复用户的询问。

而这里面有两个非常重要的信息,第一个数据在经历一轮“跑马圈地”的时代,第二个100年跨度的数据价值对于大模型来说也非常有价值。

从我目前粗浅的认知中理解,数据是具有时效性的,100年前的数据对于现在来说,除了可以当做一种资料被搜索外还有哪些作用?难道是要利用大模型“涌现”的特性,看看是否可以迸发出更多的价值么?

  • 行业数据

    不管是在人工智能的初期还是现在,算法如何的进步,最终都要回到行业中来,但现在有个本质的区别就是数据处理的能力和精细度变的不一样了。

    而相同的就是行业数据壁垒依然存在,行业数据都存在于每个公司里面,而每个公司中的数据在之前又没有进行有效的加工处理,对于每个公司来说很难想象到这些数据到底哪些有价值哪些没有价值,该如何让其发挥应有的价值。

    基于大模型的基础能力加上行业数据很快就可以完成场景大模型的迭代,使得行业数据的需求也更加迫切。

  • 数据处理成本高

    虽然对于标注行业来讲,价格目前已经在人力成本临界值徘徊了,但对于AI研发来说,成本依然还是很高的。

    这部分所指的成本高,不同于之前的数据标注,更多制约在标注工具上,而大模型使我们在处理数据时不再局限在细节的处理了,例如在NLP阶段,我们更多处理的是分词、关系等,而大模型通过自注意力机制等算法可以解决很多基础部分的工作。

    而更多需要具有业务专业型专家来解决行业问题,比如具体行业的QA对知识解答等。

    但好的一点是,对于大模型标注来说,数据标注工具会更通用,数据也更通用了。

二.人才

对于大部分人来说目前大模型、AIGC等都还是非常陌生的,再加之目前技术迭代太快,导致大部分人都学不过来了,当然也包括我在内。刚看到一个新的东西还没研究明白呢,又有其他更好的出来了,在某某排行榜上的比分又非常高了。

这样就让身在其中的我们又兴奋又无力,兴奋的是我们正在处于一个快速发展的机遇时代,无力的是让我们无从下手,该去做些什么。看似能做很多事情,真要做了又不知从何做起。

当然这可能也是目前行业的缩影,这里我们不去讨论高端算法人才部分,只针对人工智能基础数据部分人才和数据标注人才部分。

由于对于数据+标注需求和预期的改变,对于人才的需求也发生了变化,从能简单执行到专业人才的转变。从根据需求的服务到行业场景的方案定制,从人员管理到资源整合,更多需要的是具有学习能力的专业复合型人才。

而对于行业应用场景部分,需要更多可以使用大模型的人才,可以更好的释放企业已有数据的价值,可以在配合开源或者大模型服务商提供的服务来结合企业自身数据达到私有化大模型的目的。

这部分也是目前我们比较看中的部分,我们在开发相关学生教程的同时,也开发了数据标注实训平台和“数据+标注+AIGC实战教程”课程,重点和学校深入合作来培养更多专业型人才服务行业,我们能提供的是“实训平台+课程+项目”一整套的体系搭建。这部分也非常欢迎学校或者有学校资源的小伙伴来交流。

三.安全

对于数据安全来说,从开始我理解的数据流通环节安全到多维度价值对齐的安全。这里面我印象深刻的是提出的“中国价值观数据”,分享一下学习到关于多维度价值对齐语料库的原则这部分内容:

  1. 伦理价值:遵循社会道德规范和法治精神

    1. 基础伦理语料:伦理价值的理论基石与基本规范,包括伦理体系,话语体系,法律法规等。

    2. 历史文化语料:时代特色、地域特色特点伦理思考与积淀。

    3. 现实生活语料:伦理价值的实现图景和生活案例,包括家常理短、心路历程、热点思潮等。

  2. 情绪价值:满足情感认同、交流和成长需求

    1. 自愈成长语料:情感疗愈、自我实现与提升。

    2. 互动共鸣语料:分享、陪伴、怀旧等人际社交需求与情感共鸣。

    3. 自娱探索语料:个体对新鲜体验与个人乐趣的追求。

  3. 社会价值:社会公平争议与可持续创新发展

    1. 社会和谐语料:社会有序和民心安定的具象呈现,包括国家、地方和基层等多层次制度体系及治理经验等。

    2. 社会发展语料:国家、社会和民众的创新发展及追求美好生活的具体实践。

    3. 全球治理语料:人类和平与发展、构建人类命运共同体的远大理想和现实需求。

  4. 技术价值:推动科技创新与可控可治

    1. 风险评估语料:人工智能潜在风险系统分析与预判。

    2. 风险检测语料:人工智能应用风险实时追踪、预警及策略应对。

  5. 文化价值:提升文化素养和促进文明互鉴共进

    1. 中国元素语料:当代中国人的美好追求、审美情趣、人文情怀,包括食、景、人、物等。

    2. 传统文化语料:中华文明的根基与灵魂,包括非物质文化(语言文字、诗词歌赋、传统技艺、民间习俗、文化创意等)与物质文化(古迹、艺术品等)

    3. 全球文化语料:不同文明的智慧结晶和交流互鉴,包括各国代表性文化元素、文学经典、艺术作品、世界名曲、宗教典籍、文化遗产等。

会发现数据安全已经不仅仅从简单的数据流程安全、数据内容的涉政、涉暴、涉黄等基础需求,而更全面更丰富更立体,格局更大。足以证明国家正在为全面进入人工智能时代做着准备。

通过以上展现的内容不难发现,国家级数据标注基地的必要性,整个社会在做着全面进入人工智能跃层变迁的准备,这种变迁的基石需要国家来做全面保障。

以上就是通过这次世界人工智能大会学习到的一部分粗浅信息。对于学习明白的地方,欢迎小伙伴们留言交流分享。

相关文章阅读:

  1. 浅析国家级数据标注基地建设任务的城市背景下的“数据+标注”

  2. 数据标注行业在《人工智能法案》批准后的机遇与发展

  3. 全民标注时代:众包不是标注的终点,Wordcoin才是

  4. ChatGPT时代:数据标注会成为一种人机交互“语言”么?

  5. 自动驾驶测绘资质的信息安全要求,真的来了

  6. 甲方数据负责人供应商选择系列一

  7. AI数据标注猿知识星球私域社区开始招募啦!【文章最下面有公众号福利】

  8. 数据标注员是职位,人工智能训练师是职业

  9. 数据标注行业创业还可以么?

     -----------------------完----------------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1903838.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】压缩命令——gzip,bzip2,xz

1.压缩文件的用途与技术 你是否有过文件太大,导致无法以正常的E-mail方式发送?又或学校、厂商要求使用CD或DVD来做数据归档之用,但是你的单一文件却都比这些传统的一次性存储媒介还要大,那怎么分成多块来刻录?还有&am…

局部静态变量实现的单例存在多个对象

文章目录 背景测试代码运行测试尝试打开编译器优化进一步分析 背景 业务中出现日志打印失效&#xff0c;发现是因为管理日志对象的单例在运行过程中存在了多例的情况。下面通过还原业务场景来分析该问题。 测试代码 /* A.h */ #ifndef CALSS_A #define CALSS_A#include <…

Docker 容器网络及其配置说明

Docker 容器网络及其配置说明 docker容器网络docker的4种网络模式bridge 模式container模式host 模式none 模式应用场景 docker 容器网络配置Linux 内核实现名称空间的创建创建 Network Namespace操作 Network Namespace 转移设备veth pair创建 veth pair实现 Network Namespac…

nature methods | 11种空间转录组学技术的系统性比较

—DOI: 10.1038/s41592-024-02325-3 Systematic comparison of sequencing-based spatial transcriptomic methods 学习了一下空间转录组技术怎么做benchmark&#xff0c;从多个的角度去考虑目前技术的性能&#xff0c;受益良多。但该研究缺少对10X Visium HD的测评&#xff…

mac怎么压缩pdf文件大小,mac压缩pdf文件大小不改变清晰度

在数字化时代&#xff0c;pdf格式因其良好的兼容性和稳定性&#xff0c;成为了文档分享和传输的首选。然而&#xff0c;随着文件内容的丰富&#xff0c;pdf文件的体积也越来越大&#xff0c;给存储和传输带来了不小的困扰。本文将揭秘几种简单有效的pdf文件压缩方法&#xff0c…

python爬虫入门(一)之HTTP请求和响应

一、爬虫的三个步骤&#xff08;要学习的内容&#xff09; 1、获取网页内容 &#xff08;HTTP请求、Requests库&#xff09; 2、解析网页内容 &#xff08;HTML网页结构、Beautiful Soup库&#xff09; 3、存储或分析数据 b站学习链接&#xff1a; 【【Python爬虫】爆肝两…

Vue3基础知识:组合式API中的provide和inject,他们作用是什么?如何使用?以及案例演示

1.provide和inject相较于父子传递的不同在于provide,inject可以用于跨层级通信&#xff08;通俗易懂的讲就是可以实现爷孙之间的直接信息传递&#xff09;。 1.跨层级传递数据 1.在顶层组件通过provide函数提供数据 2.底层组件通过inject函数获取数据 演示一&#xff1a;跨…

vCenter登录失败报500错误:no healthy upstream

过了个周末登录vCenter的时候提示&#xff1a;HTTP状态500 - 内部服务器错误&#xff1b;重启服务后提示&#xff1a;no healthy upstream。如下图&#xff1a; 看到这个情况&#xff0c;肯定就是部分不服务异常了或者压根就没有启动。至于说因为啥异常还不得而知。想着登录管理…

MSPM0G3507——串口0从数据线传输变为IO口传输

默认的跳线帽时这样的&#xff0c;这样时是数据线传输 需要改成这样&#xff0c;即可用IO口进行数据传输

Spring IOC基于XML和注解管理Bean

IoC 是 Inversion of Control 的简写&#xff0c;译为“ 控制反转 ”&#xff0c;它不是一门技术&#xff0c;而是一种设计思想&#xff0c;是一个重要的面向对象编程法则&#xff0c;能够指导我们如何设计出 松耦合、更优良的程序。 Spring 通过 IoC 容器来管理所有 Java 对象…

【国产AI绘图】快手把“可图”大模型开源了,这是一款支持中文的SDXL模型

Kolors 是由 Kuaishou Kolors 团队&#xff08;快手可图&#xff09;开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练&#xff0c;Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面&#xff0c;与开源和专有模型相比都具有显著优势…

【LInux】从动态库的加载深入理解页表机制

&#x1f490; &#x1f338; &#x1f337; &#x1f340; &#x1f339; &#x1f33b; &#x1f33a; &#x1f341; &#x1f343; &#x1f342; &#x1f33f; &#x1f344;&#x1f35d; &#x1f35b; &#x1f364; &#x1f4c3;个人主页 &#xff1a;阿然成长日记 …

YOLOv8改进---BiFPN特征融合

一、BiFPN原理 1.1 基本原理 BiFPN&#xff08;Bidirectional Feature Pyramid Network&#xff09;&#xff0c;双向特征金字塔网络是一种高效的多尺度特征融合网络&#xff0c;其基本原理概括分为以下几点&#xff1a; 双向特征融合&#xff1a;BiFPN允许特征在自顶向下和自…

DAY21-力扣刷题

1.买卖股票的最佳时机 121. 买卖股票的最佳时机 - 力扣&#xff08;LeetCode&#xff09; class Solution {public int maxProfit(int[] prices) {int minpriceInteger.MAX_VALUE;int maxprofit0;for(int i0;i<prices.length;i){if(prices[i]<minprice){minpriceprices[…

【面试八股文】java基础知识

引言 本文是java面试时的一些常见知识点总结归纳和一些拓展&#xff0c;笔者在学习这些内容时&#xff0c;特地整理记录下来&#xff0c;以供大家学习共勉。 一、数据类型 1.1 为什么要设计封装类&#xff0c;Integer和int区别是什么&#xff1f; 使用封装类的目的 对象化:…

Webpack安装以及快速入门

3 Webpack 1 什么是Webpack https://webpack.js.org/ (官网) webpack 是一个现代 javascript 应用程序的 静态模块打包器 (module bundler) 待会要学的 vue-cli 脚手架环境, 集成了 webpack, 所以才能对各类文件进行打包处理 webpack是一个 静态模块 打包器,可以做以下的这…

数据自动备份方法分享!

现在很多朋友对于第三方软件颇为青睐&#xff0c;因为它们具备许多电脑自带备份工具所不具备的功能。例如&#xff0c;自动备份数据的需求。尽管你已经备份了电脑数据&#xff0c;但日常使用中数据常会增加&#xff0c;你可能无暇顾及每天的备份工作。因此&#xff0c;使用数据…

C++ 引用做函数返回值

作用&#xff1a;引用是可以作为函数的返回值存在的 注意&#xff1a;不要返回局部变量引用 用法&#xff1a;函数调用作为左值 示例&#xff1a; 运行结果&#xff1a;

cs231n作业1——KNN

参考文章&#xff1a;assignment1——KNN KNN 测试时分别计算测试样本和训练集中的每个样本的距离&#xff0c;然后选取距离最近的k个样本的标签信息来进行分类。 方法1&#xff1a;Two Loops for i in range(num_test):for j in range(num_train):dist X[i, :] - self.X…

昇思25天学习打卡营第19天 | RNN实现情感分类

RNN实现情感分类 概述 情感分类是自然语言处理中的经典任务&#xff0c;是典型的分类问题。本节使用MindSpore实现一个基于RNN网络的情感分类模型&#xff0c;实现如下的效果&#xff1a; 输入: This film is terrible 正确标签: Negative 预测标签: Negative输入: This fil…