行业洞察 | 当数据燃尽,AI大模型出路几何?

news2025/1/11 4:06:05

近期, 自然语言处理NLP与图像方面的SOTA的模型基本都是基于大数据和大模型预训练pretrain的。当我们翱翔在搭积木垒大模型的时候,你可曾想过,也许我们垒的大模型,数据压根就无法完全训练好,换句话说也许你垒的大模型参数过大,高质量的数据不足,导致模型训练欠拟合。

最近,看到一篇分析高质量数据数量有限的文章,这篇文章预测了 2022 年至 2100 年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。

来源 https://arxiv.org/pdf/2211.04325.pdf

研究结果表明高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。这就意味着如果数据生产的效率没有显著提高或有新的数据源可用,那么到 2040 年,模型的规模增长将放缓,这将会是人工智能领域最大的瓶颈。

人工智能三要素

众所周知,算法、算力和数据是人工智能的三驾马车,是行业发展的基石。

人工智能的高速发展离不开AI算法持续突破创新,随着模型复杂度指数级提升,算法的不断突破创新也持续提升了算法模型的准确率和效率,各类算法方案快速发展并落地于各领域,不断衍生出新的变种,模型的持续丰富也使得场景的适应能力逐步提升。

算力是人工智能发展的技术保障,是人工智能发展的动力和引擎。目前全球 AI 算力主要是以 GPU芯片为主,随着技术的不断迭代,支撑 AI 技术发展的底层技术不断迭代,AI算法得到的算力支持越来越好。

AI算法的训练离不开数据的加持,其实网上所有的信息都可以称为数据,通俗理解,大数据就是用现有的一般技术难以管理的大量数据的集合。大数据具有有三大特征:体量大、多维度、全面性。模型训练数据的丰富程度、清洗的干净程度一定程度上决定了 AI 算法的优劣。数据是一切智慧物体的学习资源,没有了数据,任何智慧体都很难学习到知识。

数据危机

如果出现数据危机,人工智能将止步不前。尤其是我们大量使用的Google翻译、Sari智能语音助手、数字虚拟人语音合成等技术都是依赖大量的高质量的标注数据来完成模型训练。但是,这些人工智能产品还不够完美,还需要算法精进与额外的大量的数据加持,但是上面的报道研究表明人类社会虽然无时无刻在产生数据,但是高质量数据即将枯竭。针对这个迫在眉睫的挑战,需要算法工程师和数据供应商共同努力解决。

解决方案

算法工程师需要致力于研究小模型和迁移学习算法。目前大量的语言模型都是基于巨量参数的大模型,如何精准使用数据研究出又小又smart的小模型是未来发展的一个方向。此外,我们可以使用迁移学习的方法将预训练的大模型的性能,通过微调或者域自适应的算法迁移到目标小数据集上,扩展大模型的应用领域,同时减少每个应用场景的大数据需求。

算法工程师能做到的是缓解数据枯竭带来的危机,解决危机的根本方法还是生产大量、高质量的标注数据,充盈大数据仓库。数据标注是AI的上游基础产业,应该以人工标注为主,并且借助算法与机器共同标注,减少人力资本投入,提升数据生产效率。

Magic Data 作为全球领先的AI数据提供商,致力于通过高标准且安全合规的采集、清洗、整理、标注流程,为企业和科研机构提供高质量AI数据。

同时,Magic Data打造智能化标注平台Annotator,该平台能够标注各种场景的数据,例如车载、家居、室外等各种场景,标注效率和质量获得海内外众多客户肯定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/73262.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BIO和NIO

前言 这段时间自己在看一些Java中BIO和NIO之类的东西,看了很多博客,发现各种关于NIO的概念说的天花乱坠头头是道,可以说是非常的完整,但是整个看下来之后,自己对NIO还是一知半解的状态,所以这篇文章不会提…

Java ssm框架 mysql实现的酒店管理系统源码+运行教程+文档

今天给大家演示一下由ssmmysql实现的一款酒店管理系统,教大家怎么配置运行起来,以及在运行过程中遇到一些小问题的解决方法。该系统实现了酒店客房预订管理的基本功能,还增加了图表显示统计结果的功能,对于Java初学者及学生来说非…

自动化测试平台(二):开发用户认证接口

一、前言 对于一个系统来讲,用户模块是非常基本且重要的。搭建的测试平台也需要对用户、用户权限等进行管理。下面为你讲解如何通过DRF来快速的做一个用户登录的验证接口。 二、验证登录讲解 1)创建用户 进入django的项目目录,执行下面的命…

Renderbus瑞云渲染正式支持UE云渲染!离线渲染+实时渲染=渲染起飞!

2022年已经到了尾声,回顾今年CG圈里最具讨论性的话题,除了AI绘图,就是虚幻引擎了,这两者如同一股风潮,从概念创意到后期制作,一路以“席卷”之势影响到了视觉领域的各个行业。 Renderbus瑞云渲染农场作为亚…

CMake中add_custom_target的使用

CMake中的add_custom_target命令用于添加一个没有输出的target,以便始终构建它,其格式如下: add_custom_target(Name [ALL] [command1 [args1...]][COMMAND command2 [args2...] ...][DEPENDS depend depend depend ... ][BYPRODUCTS [files…

vue中使用visibilitychange事件来获取页面当前可见性

前言 在系统中,如果有打开新页面进行相关操作,若是有关联操作就需要通过判断页面的可见性来进行后绪的操作 一、触发visibilitychange变更的情况 页面的可见性有三个层面 页面可见时,用户关闭 Tab 页或浏览器窗口。页面可见时&#xff0c…

ASP.NET Zero Core系统配置工具

ASP.NET Zero Core系统配置工具 ASP。NET Zero是具有现代复杂应用程序连接的新web应用程序的起点。使用高级页面和强大的下属,您将能够从您的时间中受益。您可以使用ASP.NET ZERO作为基础程序,直接开始开发自己的代码和业务。 ASP.NET ZERO工具选项和功能…

sklearn中的特征选择feature_selection

特征选择 概念:就是从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。特征选择常用的方法有:过滤法,嵌入法,包装法,和降维算法 过滤…

BN128曲线

1. 引言 BN系列椭圆曲线E(Fp):y2x3b,其中b≠0E(\mathbb{F}_p):y^2x^3b,其中b\neq 0E(Fp​):y2x3b,其中b​0,由Paulo S. L. M. Barreto1 和 Michael Naehrig 在2005年论文 Pairing-Friendly Elliptic Curves of Prime Order中首…

增长思维 —— 撬动企业增长的杠杆

增长一定不是只适用于互联网公司 营销:获客 增长:研究的是用户全生命周期 增长思维:以供需分析为基础,从用户全生命周期寻找增长点的方法论 这个模型的核心是啊哈时刻,指的是一个产品对用户价值感最强的那个点 一个…

画饼画到世界地图上:按比例呈现多组数据

地图是数据可视化的一部分,做群体遗传学、动物学、植物学、微生物学等的朋友经常用到世界地图,比如绘制不同小麦品种的世界分布。一般情况下,我们根据经纬度将数据标注在地图上,然而有些时候,我们会需要更高级的标注&a…

Apache doris 1.2.0 release

亲爱的社区小伙伴们,再一次经历数月的等候后,我们很高兴地宣布,Apache Doris 于 2022 年 12 月 7 日迎来 1.2.0 Release 版本的正式发布!有近 118 位 Contributor 为 Apache Doris 提交了超 2400 项优化和修复,感谢每一…

Ubuntu 22.04 桌面美化之Mac Big Sur风格

Ubuntu 默认的桌面也是一个不错的样式,但千篇一律的主题很容易让人疲惫。本文描述了如何通过安装 gnome 桌面主题和动画,使桌面趋向于 Mac 的样式。 美化后的样式如下,请参考: 一、主题和图标美化 1.1 安装 tweaks 打开终端&…

抽奖小程序怎么做?

抽奖小程序怎么做?大概需要多少钱? 价格方面,平台按年收费,一年1498至2498元。 明码标价,7天退款制度,随时退。 抽奖小程序怎么做步骤: 1.进入第三方抽奖小程序制作平台官网注册账号并登录。 抽奖小程…

Kubernetes集群安装卸载

生命无罪,健康万岁,我是laity。 我曾七次鄙视自己的灵魂: 第一次,当它本可进取时,却故作谦卑; 第二次,当它在空虚时,用爱欲来填充; 第三次,在困难和容易之…

银河麒麟服务器系统V10开启root用户自动登录的图文教程

HI,最近公司拿回来一个联想服务器,配置还可以啊,所以就想着在本地搭建一套常用的测试环境,但是这个服务器是扁平的,不像是主机那样,这种是锁定在主机箱上的,而且噪音很大,一直嗡嗡嗡的,所以打算弄好之后放在离我远一些的地方,不然真的没法工作,全是噪音,系统都部署…

transformer14

太强了都连载14了~~ 这次是无残差连接或归一化层,也能成功训练深度 尽管取得了很多显著的成就,但训练深度神经网络(DNN)的实践进展在很大程度上独立于理论依据。大多数成功的现代 DNN 依赖残差连接和归一化层的特定排列&#xff…

ROS多机通信(ssh控制)

这种方法需要在局域网范围内进行,通信距离取决于WIFI模块的传播距离 1、连接同局域网 将主机和从机连接相同的网络,在同一局域网内。例如192.168.0.*(前三位相同) 网络会自动给每个机器一个IP 2、安装SSH sudo apt-get insta…

SpringBoot自动配置的原理-@SpringBootApplication

文章目录1自动配置原理1.1 SpringBootConfiguration1.2.ComponentScan1.3 EnableAutoConfiguration2 为什么不使用 Import 直接引入自动配置类学完这篇文章,可以了解到 SpringBoot 自动配置原理1自动配置原理 SpringBootConfiguration 是一个组合注解,由…

Pinely Round 1 (Div. 1 + Div. 2) E.Make It Connected(思维题/并查集+分类讨论)

题目 n(n<4e3)个点不包含自环和重边的无向图&#xff0c; 你可以执行以下操作若干次&#xff1a; 1. 选择一个点u 2. 对于每个点v(v≠u)来说&#xff0c;若u、v之间当前有一条边相连&#xff0c;则断开这条边&#xff0c; 否则在u、v之间加一条边&#xff0c;使之相连 …