【AI学习】关于Scaling Law的相关学习

【AI学习】关于Scaling Law的相关学习

news2026/2/12 10:44:34

一、苦涩的教训
首先，学习一段重要话语：
The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.

从70年的人工智能研究中可以学到的最大教训是，利用计算的通用方法最终是最有效的，而且在很大程度上是有效的。

——Richard Sutton: “The Bitter Lesson”，2019

二、Scaling Law：KM扩展法则与Chinchilla扩展法则

在人工智能领域，特别是大语言模型（LLM）的研究中，理解和应用扩展法则（Scaling Law）是至关重要的。这些法则帮助研究者和工程师预测和优化模型性能，从而在给定的计算资源下实现最佳效果。目前，两种主要的扩展法则——KM扩展法则和Chinchilla扩展法则——在学术界和工业界得到了广泛应用。

KM扩展法则
KM扩展法则是由Kaplan等人于2020年首次提出，并由OpenAI团队进一步发展。该法则通过拟合神经语言模型的性能与不同模型规模、数据集大小和计算量之间的关系来建立一个定量的建模方法。具体来说，KM扩展法则认为，在给定的计算预算下，应将更多的预算分配给模型大小的增加。这意味着，当算力预算增加时，KM扩展法则倾向于让模型变得更加庞大

在这里插入图片描述
公式中的三个量𝑁𝑐,𝐷𝑐,𝐶𝑐 分别表示非嵌入参数数量、训练数据数量和总计算量。这一法则的核心在于通过调整这三个变量的比例，达到提升模型性能的目的。

Chinchilla扩展法则
Chinchilla扩展法则由Google的DeepMind团队提出，旨在解决预训练工作中可能忽视的数据规模扩展问题。与KM扩展法则不同的是，Chinchilla扩展法则主张模型大小和数据大小应该以相同的比例增加。

Chinchilla扩展法则的一个关键发现是，随着给定计算预算的增加，模型和数据规模应该以相近的比例增加。这不仅有助于提高模型的性能，还能在实际应用中减少计算成本。

备注：并不打算对这个法则有深入了解，先知道一个概念。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1937210.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

服务器借助笔记本热点WIFI上网

服务器借助笔记本热点WIFI上网

一、同一局域网环境 1、当前环境，已有交换机组网环境，服务器已配置IP信息。设备ip服务器125.10.100.12交换机125.10.100.0/24笔记本125.10.100.39 2、拓扑图 #mermaid-svg-D4moqMym9i0eeRBm {font-family:"trebuchet ms",verdana,arial,sa…

阅读更多...

FastAPI（六十五）实战开发《在线课程学习系统》基础架构的搭建

FastAPI（六十五）实战开发《在线课程学习系统》基础架构的搭建

在之前三篇，我们分享的就是需求的分析，基本接口的整理，数据库链接的配置。这次我们分享项目的基本框架，目录结构大致如下： common目录： 通用目录，放一些通用的处理 models目录&#xf…

阅读更多...

达梦数据库(一)mysql2dm

达梦数据库(一)mysql2dm

达梦数据库(一)mysql2dm 文章目录达梦数据库(一)mysql2dm一、安装篇ForWindows二、数据库初始化篇三、数据迁移篇出现的问题找不到对应表或者视图注意字符集模式迁移出错大小写敏感解决方案四、代码修改篇group_concatGROUP BY方法一方法二(最笨)方法补充多表联查更新参考…

阅读更多...

【AI资讯】7.19日凌晨OpenAI发布迷你AI模型GPT-4o mini

【AI资讯】7.19日凌晨OpenAI发布迷你AI模型GPT-4o mini

性价比最高的小模型北京时间7月19日凌晨，美国OpenAI公司推出一款新的 AI 模型“GPT-4o mini”，即GPT-4o的更小参数量、简化版本。OpenAI表示，GPT-4o mini是目前功能最强大、性价比最高的小参数模型，性能逼近原版GPT-4&#xff0…

阅读更多...

python--实验15 数据分析与可视化

python--实验15 数据分析与可视化

目录知识点 1 数据分析概述 1.1流程 1.2定义 1.3数据分析常用工具 2 科学计算 2.1numpy 2.1.1定义 2.1.2创建数组的方式 2.1.3np.random的随机数函数 3 数据可视化 3.1定义 3.2基本思想 3.3Matplotlib库 3.3.1模块 4 数据分析 4.1Pandas 4.2数据结构 4.3基…

阅读更多...

RE学习7.16-17

RE学习7.16-17

[HDCTF 2023]买了些什么呢是一个经典的算法题吧物品的重量和价值为: | 物品编号 | 重量 | 价值 | | 1 | 2 | 8 | | 2 | 5 | 1 | | 3 | 10 | 5 | | 4 | 9 | 9 | | 5 | 3 | 5 | | 6 | 6 | 6 | | 7 | 2 | 8 | | 8 | 2 | 2 | | 9 | 6 | 3 | | 10 | 8 | 7 | | 11 | 2 | 5 | | 1…

阅读更多...

在 PostgreSQL 中怎样进行数据库的容量规划？

在 PostgreSQL 中怎样进行数据库的容量规划？

🍅关注博主🎗️ 带你畅游技术世界，不错过每一次成长机会！📚领书：PostgreSQL 入门到精通.pdf 文章目录在 PostgreSQL 中怎样进行数据库的容量规划？一、为什么容量规划如此重要？二、影…

阅读更多...

探索 JavaScript Polyfill：跨越浏览器兼容性的桥梁

探索 JavaScript Polyfill：跨越浏览器兼容性的桥梁

🎉 博客主页：【剑九六千里-CSDN博客】 🎨 上一篇文章：【构建高效Node.js中间层：探索请求合并转发的艺术】 🎠 系列专栏：【面试题-八股系列】 💖 感谢大家点赞👍收藏⭐评…

阅读更多...

【Linux系统化学习】数据链路层

【Linux系统化学习】数据链路层

目录数据链路层解决的问题以太网认识局域网以太网帧格式两个问题认识MAC地址认识MTU ARP协议 ARP协议的作用 ARP数据报格式 ARP协议的工作流程数据链路层解决的问题对于TCP/IP四层协议来说，数据链路层才是真正从传送数据进行跑腿办事情的&…

阅读更多...

display: flex 和 justify-content: center 强大居中

display: flex 和 justify-content: center 强大居中

你还在为居中而烦恼吗，水平居中多个元素、创建响应式布局、垂直和水平同时居中内容。它，display: flex 和 justify-content: center 都可以完成！ display: flex：将元素定义为flex容器 justify-content：定义项目在主轴…

阅读更多...

分享：咕嘎批量查找文件移动存储系统，一次性查找多个PDF文件，如何根据txt文本列出的文件名批量查找指定文件夹里的文件，并复制到新的文件夹，不需要写任何代码，点点鼠标批量处理一次性搞定

分享：咕嘎批量查找文件移动存储系统，一次性查找多个PDF文件，如何根据txt文本列出的文件名批量查找指定文件夹里的文件，并复制到新的文件夹，不需要写任何代码，点点鼠标批量处理一次性搞定

简介： 该文介绍了一个批量查找PDF文件（不限于找PDF）的工具，用于在多级文件夹中快速查找并复制特定文件。用户可以加载PDF库，输入文件名列表，设置操作参数（如保存路径、复制或删除）及…

阅读更多...

一个非常好的美图展示网站整站打包源码，集成了wordpress和开源版ripro主题，可以完美运营。

一个非常好的美图展示网站整站打包源码，集成了wordpress和开源版ripro主题，可以完美运营。

一个非常好的美图展示网站整站打包源码，集成了wordpress和开源版ripro主题，可以完美运营。自带了5个多g的美图资源，让网站内容看起来非常大气丰富，可以快速投入运营。这个代码包，原网站已经稳定运营多年&#xff0…

阅读更多...

影响转化率的多元因素分析及定制开发AI智能名片S2B2C商城系统小程序的应用案例

影响转化率的多元因素分析及定制开发AI智能名片S2B2C商城系统小程序的应用案例

摘要：在互联网时代，转化率是衡量营销活动成功与否的关键指标。本文首先分析了影响转化率的多种因素，包括活动页面的设计、活动的限时性、主题文案的吸引力、从众心理的运用，以及最核心的产品质量与优惠力度。接着，本文…

阅读更多...

问题：4、商业保险与政策性保险的主要不同之处是：经营主体不同、经营目标不同、承保机制不同。 #学习方法#其他#学习方法

问题：4、商业保险与政策性保险的主要不同之处是：经营主体不同、经营目标不同、承保机制不同。 #学习方法#其他#学习方法

问题：4、商业保险与政策性保险的主要不同之处是：经营主体不同、经营目标不同、承保机制不同。参考答案如图所示

阅读更多...

SQL Server 使用 OPTION (RECOMPILE) 和查询存储的查询

SQL Server 使用 OPTION (RECOMPILE) 和查询存储的查询

设置我们正在使用 WideWorldImporters 数据库，您可以从 Github 下载【sql-server-samples/samples/databases/wide-world-importers at master microsoft/sql-server-samples GitHub】。我正在运行SQL Server 2017 的最新 CU【https://sqlserverbuilds.b…

阅读更多...

Adobe国际认证详解-网页设计认证专家行业应用场景解析

Adobe国际认证详解-网页设计认证专家行业应用场景解析

在当今数字化时代，网页设计已成为各行各业不可或缺的一环。而网页设计认证专家，作为经过Adobe国际认证体系严格考核的专业人才，正逐渐成为行业内炙手可热的存在。他们凭借深厚的网页设计理论基础和实践经验，为各行各业提供了高质量…

阅读更多...

建筑工程企业项目管理系统哪个好？试试企智汇工程项目管理系统

建筑工程企业项目管理系统哪个好？试试企智汇工程项目管理系统

在建筑工程行业中，项目管理的复杂性和挑战性是众所周知的。随着项目规模的扩大和技术的不断进步，传统的管理方法已经难以满足现代建筑工程的需求。企智汇工程项目管理系统应运而生，为建筑工程企业提供了一个全面、智能、高效的解决方案。一…

阅读更多...

“生日悖论”简析——公式计算、代码模拟

“生日悖论”简析——公式计算、代码模拟

“生日悖论”共享生日概率，通项公式计算，代码模拟计算。 (笔记模板由python脚本于2024年07月17日 18:16:40创建，本篇笔记适合会基础编程的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网：https://www.python.org/ Free&…

阅读更多...

Flutter Dart Macro 宏简化 JSON 序列化

Flutter Dart Macro 宏简化 JSON 序列化

Flutter Dart Macro 宏简化 JSON 序列化视频 https://youtu.be/gBZYjBmoOcU https://www.bilibili.com/video/BV1tT421a7ev/ 前言原文 https://ducafecat.com/blog/using-dart-macros-to-simplify-json-serialization 今天我们将会体验 dart 语言新特性 macro 宏&#xff…

阅读更多...

Vue3中实现自然滚动表格列表，可调整滚动快慢

Vue3中实现自然滚动表格列表，可调整滚动快慢

实现效果如图所示，可以调整滚动的快慢，可以实现内容高度不够的时候停止滚动的效果。 1.实现原理： 创建一个dom为ul，赋值为当前列表数据，然后拷贝这个dom赋值给第二个ul，然后判断屏幕高度跟滚动高度对比&a…

阅读更多...

推荐文章

最新文章