ChatGPT时代:数据标注会成为一种人机交互“语言”么?

news2024/12/23 18:55:38

   标注猿的第70篇原创  
 一个用数据视角看AI世界的标注猿  

大家好,我是AI数据标注猿刘吉,一个用数据视角看AI世界的标注猿。

从去年的10月份到现在有半年的时间没有更新了,去年没有更新是疫情的原因,今年没有更新主要有两个原因一是因为在拼命的“活着”,二是变化太快了,有点懵状态。

到去年年底或许行业内有超过一半的标注供应商公司倒闭,不在从事相关业务了。当然也有一部分公司转型成功了,据我了解有一些转型做抖音的相关业务也有比较好的结果的。当然也有越做越大的小伙伴,非常令人佩服。

所以在年初的时候也跑了一些地方和一些行业内的大牛们聊了聊,本来在聊完之后想写一篇文章,但是聊完之后感觉没有写的意义了。

随后的一个多月里ChatGPT席卷全球,又看不懂了,感觉整个国内的人工智能行业都被打蒙了“1秒”。

最近又和一些小伙伴交流,也请教了一些大咖,关注一些行业的信息,也有了一些思考,决定还是回归数据视角看AI的本质,去写一些内容和大家分享交流。所以本文就从三个方面和大家聊聊:

  • 数据标注业务的增量在哪?

  • GhatGPT的冲击

  • 数据标注会成为一种人机交互“语言”么?

一.数据标注业务的增量在哪?

总所周知,数据标注行业的业务从数据类型上类区分是图片、音频、文本、视频,而目前行业主体的业务需求大多来源于图片类的,而图片类的大部分需求源于自动驾驶相关标注的业务。

年初的时候,看到一篇36氪发布的一篇文章,文章介绍了几个标注服务商公司的业务增长非常高,有的都已经达到了442%,而一些主机厂的数据标注的投入也从几十万、几百万增长到了数千万甚至大几千万的级别。

所以至少在3月底之前大家对于数据标注今年的市场增量还是信心满满,预期着自动驾驶厂商今年的投入有会有一个非常大规模化的增长。

但是能单纯的认为是数据标注行业的增量么?或许是否定的,单从自动驾驶标注业务来看,实际客户源是很有限的,国内能做的起自动驾驶的公司和主车厂是非常有限的,而愿意实打实花大资金重投的或许是更有限的。

源于自动驾驶业务带来的增量在数据量上的确有增加,但是如果客户数量没有增加的话就会促使内卷进一步加剧。所以从行业增量来说,我认为是没有增量的,毕竟客户总量几乎没有增加。

逻辑很简单,一个主机厂不会把“鸡蛋”放到一个篮子里,而能接主机厂的数据标注供应商大多是规模比较大(关系户)或者平台方,而一般至少也会找3家及以上,那么竞争就来了,或许你会在不同的平台看到同样的项目,价格却不一样。

而从目前来看已经到了5月份、6月份了,年初所预期的井喷式的任务却没有如期而至,是大环境不好预算减少了、还是技术方案调整了?我们还不得而知。

二.ChatGPT的冲击

ChatGPT从文本类再到多模态的表现的确给所有人来了很大的冲击,虽然也有人认为没什么突破,就是数据量大了。但的确让每个人、每个行业都或多或少可以利用这个工具为自己做一些事情。

甚至有些人在思考ChatGPT会不会取代人类,会不会导致很多人失业?我认为不会取代人类,会让一部分失业,但是最恐怖的一件事儿是未来会有一部分人慢慢会会被AI提供的信息所供养。

ChatGPT对我冲击最大的两点是:

  1. 有意思的是在ChatGPT出现以后,很多投资人很多公司疯狂的开始吹捧大模型,虽然不知道最终会留下几家,毕竟这种基础的大模型投入太大,而最终能站到“金字塔”尖会非常少。

    但这个过程也发生了一些非常有意思的事儿,最先通过ChatGPT赚到钱的人却是一批教普通人使用ChatGPT的人。从如何注册到如何使用,甚至看到了教别人如何向ChatGTP提问才能得到更好的答案。

    看到这点的时候,从数据的角度我突然意识到一个问题,“问题也是ChatGTP的一种数据”

    这种问题在标注里面我们通常称为“问题泛化”、“问题扩展”。但这种问题的泛化、扩展其实很难通过标注人员人为的处理。所以才会出现很多人问的问题也想要的答案有出入,但是如果换一种方式问,可能就会得到更贴切的答案。

    那么在ChatGPT3.5到ChatGPT4对外开放的迭代时间用了大概半个多月的时间,或许从数据标注的角度来看,应该是更多的训练了一次在3.5开放之后问题的数据。

    所以在无意间每个使用过ChatGPT的人都成为了ChatGPT标注员,帮助它进行了一次有一次的标注。

      • ChatGPT数据的数量级

        国内的公司或许也不会拿出上百亿美元的资金去做研发,而还有一部分又要花费在数据标注这个“无底洞”上面。

      • 聚焦场景化解决方案和大模型

        从这几年国内一直看重的场景化解决方案,不太看好大模型的发展。而ChatGPT3.5和ChatGPT4打破了国内的很多认知。

        记得前几年的每年在参加很多地方举办的人工智能年度大会上,很多专家对大模型的不屑一顾,对场景化模型的吹捧还历历在目。

三.数据标注会成为一种人机交互“语言”么?

ChatGPT这种大模型的出现,之所以会席卷全球,除了有过硬的技术外,还有一个核心的问题就太易用了。任何一个非相关专业的人员,甚至都不需要多高学历的人员就可以使用。

易用、好用、就会变的易传播。

但热情退去,如何解决大模型在实际应用中“最后一公里”的问题呢?

不管是问答类、还是多模态的大模型,在我们问具体问题的时候,都会有一种感觉,看似给你了一个很“丰满”的答案,但只要你细研究,这个答案又好像没啥太大用,有一点像“废话文学”。

这也会是后面大模型落地时候的一大痛点,商业化的一个阻碍。看似非常有用,但在具体问题上有没啥用的尴尬。

这个时候在看看ChatGPT在解决问题数据泛化、扩展的思路,以及特斯拉在自动驾驶解决数据的思路就有异曲同工之妙了。

对于大模型人机交互在解决“最后一公里”问题,自主的数据标注就变的尤为重要了。

首先可以肯定的是想要ChatGPT解决很实时的具体问题时候,一定是需要给ChatGPT“投喂”一些相关的数据信息的,那么这一个过程其实就是一次数据标注的过程,但是否对于ChatGPT是有效的,我们是无法确定的。

对于数据标注来说,在大模型的长尾阶段一定是必须的,但这种必须又好像是我们在跟机器做了一次又一次的“对话”,来告诉机器我们要做什么,而这个数据标注的过程,是否可以变成一种特定的“人机交互语言”来实现呢?

作为普通人来使用AI,我们不关系技术实现、代码落地等等复杂的内核,我们更要关注的是自身的需求,并提出问题,完善问题需求,然后让AI来帮我们解决。

如果从这个角度来思考的话,数据标注是否更像是人机交互的一种语言呢?

以上就是最近关于数据标注相关内容的一点点思考,欢迎小伙伴留言讨论交流。

相关文章阅读:

  1. 自动驾驶测绘资质的信息安全要求,真的来了

  2. 甲方数据负责人供应商选择系列一

  3. AI数据标注猿知识星球私域社区开始招募啦!【文章最下面有公众号福利】

  4. 数据标注员是职位,人工智能训练师是职业

  5. 数据标注行业创业还可以么?

-----------------------完--------------------

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/592788.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微软联合OpenAI发大招了,上线Windows Copilot,速来围观~

目录 前言 Windows Copilot 问世 Bing Chat 插件功能上线 Edge 与 365 Copilot 结合 搭建你的第一个AI应用(Azure AI Studio) 总结 写到最后 大家好,我是大侠,AI领域的专业博主 前言 ChatGPT如今已成为炙手可热的话题&am…

面向亚裔人群的美国华人超市【Maison Solutions】申请纳斯达克IPO上市

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,来自美国南加州的面向亚裔人群的美国华人超市【美生科技Maison Solutions】近期已向美国证券交易委员会(SEC)提交招股书,申请在纳斯达克IPO上市,股票…

软考A计划-试题模拟含答案解析-卷十四

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

ipad触控笔是哪几款?一般电容笔和Apple pencil区别

和苹果Pencil最大的区别就是,电容笔没具备重力压感,只有一种倾斜的压感。如果你不经常画画,那么你可以使用一款平替电容笔。这种平替电容笔,不仅仅是用在办公上,还能用来做笔记和练习。更何况,现在苹果一款…

2023苹果电脑专用下载工具Folx5.27.13991

Mac 上免费的网络下载管理器 Folx Mac 下载器有一个支持 Retina 显示的现代界面。提供独特的系统排序、存储下载内容与预览下载文件。Folx 的 PRO 版是优秀的 BT 查找工具 - 您无需在网络浏览器中打开多个种子追踪器来查找您需要的内容。 虽然苹果系统比较封闭,如果…

蔚来Java实习面经

目录 1.解释一下MySQL中脏读、不可重复读、幻读2.索引失效的场景有哪些?3.Explain执行计划用过吗4.Type字段有哪一些5.binlog和redolog的区别6.Redis基本数据类型7.有序集合的底层数据结构使用的是?8.跳表插入数据的过程能描述一下吗9.线程池&#xff0c…

两个直线/线段的交点 - golang

问题,求上图中线段AB 和线段CD的交点P的坐标 根据《算法艺术与信息学竞赛》,公式如下 原理: 利用叉积求得点P分线段DC的比,然后利用高中学习的定比分点坐标公式求得分点P的坐标 要注意的是 若判断是两条线段,需先判…

GPT到底有多聪明?附上一份GPT研究报告!(十七)

转载自 AI 源起 GPT的出现,不得不说是人类整个科技发展史上的里程碑。那么你知道GPT到底有多聪明吗?它的边界在哪?我们这个系列将为您着重阐述这一点。 人的专长、工作和经济 GPT-4在一系列任务和领域中的卓越表现将挑战关于人类和机器在…

合肥工业大学嵌入式系统原理实验报告

✅作者简介:CSDN内容合伙人、信息安全专业在校大学生🏆 🔥系列专栏 : 📃新人博主 :欢迎点赞收藏关注,会回访! 💬舞台再大,你不上台,永远是个观众。…

Hive库表基本操作

Hive基本操作-库、表 规则语法 大小写规则: 1. hive的数据库名、表名都不区分大小写 2. 建议关键字大写 复制代码 命名规则: 1. 名字不能使用数字开头 2. 不能使用关键字 3. 尽量不使用特殊符号 复制代码 库操作语法 创建数据库 创建数据库的本质就是在hive…

基于UNnet(backbone=resnet34) 对 PASCAL VOC 的分割

目录 1. 介绍 2. tools 代码文件夹 2.1 get_palette 2.2 transform 3. train 部分 4. 结果展示 1. 介绍 本文使用resnet 34作为backbone代替传统unet的 vgg,实现对PASCAL VOC的分割 训练了两百个epoch后,mean iou到达了0.4左右,没…

如何管理银行多网点监控?用这方法就够了!

随着科技进步和生活水平的不断提高,人们对于餐饮消费的需求也逐渐变得多样化和个性化。 高校食堂现状分析 01.信息化水平低,学校管理难,无法精准就餐; 02用户满意度低,学生取餐环节效率低; 03.管理效率低…

音视频入门

1 音视频核心知识 1.1 视频录制原理 1.2 视频(音频视频)播放原理 2 图像基础概念 2.1 像素 2.2 分辨率 隔行扫描 逐行扫描 2.3 位深 RGB 通常每个通道用8bit表示 每个通道位深越大,能够表示的颜色值就越大 2.4 帧率 帧率越高&#xff…

Web的基本漏洞--CSRF漏洞

目录 一、CSRF漏洞介绍 1.CSRF漏洞原理 2.CSRF漏洞的类型 3.漏洞识别 4.漏洞攻击 5.CSRF漏洞的危害 6.CSRF漏洞防御 7.CSRF和XSS的区别 一、CSRF漏洞介绍 1.CSRF漏洞原理 CSRF(cross site request forgery)是指跨站请求伪造,是指利用受害者尚未…

智慧工厂~经典开源项目数字孪生智慧工厂——开源工程及源码

以领先的数字孪生技术为基础,全面打造智慧工厂。现有云南某大型汽车加工厂工程和源码免费赠送! 项目介绍 智慧工厂基于数字孪生技术创建了一个真实的三维模型场景。通过对传感器和机器的数据采集、分析处理,实时监控各生产环节,优…

CS5523规格书|MIPI 转DP/eDP转换芯片|DSI转DP/eDP转换芯片

ASL CS5523是MIPI DSI输入、DP/e DP输出转换芯片。MIPI DSI最多支持4个通道,每个通道的最大运行速度为1.5Gps。对于DP 1.2输出,它由4个数据通道组成,支持1.62Gbps和2.7Gbps的链路速率。支持1.62Gbps和2.7Gbps的链路速率。它支持2560的最高分辨…

chatgpt赋能python:Python中最大公约数的函数介绍

Python中最大公约数的函数介绍 在数学中,最大公约数(GCD)是两个或多个整数的最大公约数。 Python是一种高级编程语言,具有内置的GCD函数。在本篇文章中,我们将介绍Python中的最大公约数函数,以及如何使用它…

【C++】类和对象 - 封装 - 属性和行为,访问权限,class 和 struct区别,成员属性私有化

No.Contents1【C】基础知识 - HelloWorld,注释,变量,常量,关键字,标识符2【C】数据类型 - 整型,sizeof,实型,字符型,转义字符,字符串类型,布尔类型…

web前端 -- javascript(02) -- 数据类型转换、常见运算符及顺序、选择和循环结构

数据类型转换 &#xff08;1&#xff09;自动类型转换&#xff1a; 特点&#xff1a;低类型自动向高类型进行转换 boolean < int < float < string PS&#xff1a; boolean类型如果与数值型进行运算&#xff1a;true 1&#xff1b;false 0其他基本数据类型与字符串…

whistle以及谷歌插件Proxy SwitchyOmega实现代理

whistle提供本地服务器&#xff0c;以及代理 Proxy SwitchyOmega拦截浏览器的网络请求&#xff0c;指向whistle服务 ip 为什么要用它们呢&#xff1f; 其实一开始使用的是mac的charles&#xff0c;但是出现了网页上传文件数据的时候会被篡改&#xff0c;也可能是我配置的原因…