LLMs开源模型们和数据集简介

news2024/10/7 4:23:55

本篇文章整理下目前常用的LLMs模型们和数据集简介。

BackBones
​https://github.com/FreedomIntelligence/LLMZoo

在这里插入图片描述
可以看到目前被广泛用来作为LLMs的backbone的模型有以下特点:

  • Backbone:基于某个开源backbone,如GLM、LLaMA、BLOOMZ(GPT-style)
  • Datasets:分为两类Instruction、Conversation
  • Tuning Strategies:分为两类SFT、RLHF
  • Optimization:开源项目参数规模一般都不是很大,Params 6/7B、13B

LLaMA:

  • Meta AI 。
  • 7B、13B、33B 和 65B。
  • 使用比通常更多的 tokens 训练一系列语言模型,以证明在相对较小的模型上使用大规模数据集训练能达到更好性能 。一般推荐在 200B tokens 上训练 10B 规模的模型,而 LLaMA 使用了 1.4T 和1T tokens 训练模型。
    在这里插入图片描述

BLOOM:

  • BigScience。
  • 176B、560M、1.1B、1.7B、3B、7.1B 。
  • BLOOM支持46种自然语言和13种编程语言,BLOOMZ(instruction tuning)。

GLM:

  • 清华、智谱。
  • 130B。
  • GLM 预训练方式:自回归的空白填充,将单双向注意力同时引入模型。当使用[MASK]时,GLM同BERT和T5;当使用[gMASK]时,GLM类似于PrefixLM。
  • ChatGLM。类似GLM-130B ,在6B参数上经过约 1T tokens的中英双语训练,辅以SFT、RLHF。
    [图片]

LLaMA、BLOOMZ、ChatGLM是被开源社区fine-tune最多的backbones,当然也有完全自研的框架。

  • ChatYuan。元语智能,基于T5,基于PromptClue进行SFT。
  • Colossal AI。SFT、RM和RLHF的完整框架,backbone可选GPT2、OPT和BLOOM。
  • DeepSpeedChat :微软基于DeepSpeed优化库开发而成,具备强化推理、RLHF模块、RLHF系统三大核心功能,可将训练速度提升15倍以上,如13B模型只需训1.25小时。
  • 其他:对标GPT4多模态能力的OpenFlamingo、LLaVA等等。

Datasets
Fine-tune数据集主要来源:

  • ChatGPT/GPT4。
  • 共享数据。
  • 其他:已有数据集造数据、纯人工标数据。

Alpaca:

  • 斯坦福大学。
  • 基于LLaMA-7B/13B + instruction-following
  • 数据来源于利用 OpenAI 的 text-davinci-003 模型以 self-instruct方式(Instruction Tuning 在 LLM 上性能极限的探究 )生成 52K 的数据,然后以有监督的方式训练 LLaMA。
    在这里插入图片描述

Alpaca主要支持英文任务,目前逐渐被扩展到:韩语羊驼KoAlpaca,日语羊驼 Japanese-Alpaca-LoRA,中文则是 Chinese-Vicuna(小羊驼)、 Luotuo(骆驼)等等。

{
    "instruction": "What are the three primary colors?", #描述了模型应该执行的任务。
    "input": "", #可选上下文或输入。例如,当指令是“总结以下文章”时,输入就是文章。
    "output": "The three primary colors are red, blue, and yellow." #答案
}

Vicuna:

  • UC伯克利、CMU、斯坦福等。
  • 基于LLaMA-7B + conversation-following
  • 数据来源于ShareGPT收集的用户共享对话,大约70K对话,使模型能够更好地处理多轮对话和长序列。
{
    "id": "identity_0", #多轮对话
    "conversations": [
      {
        "from": "human",
        "value": "Who are you?"
      },
      {
        "from": "gpt",
        "value": "I am Vicuna, a language model trained by researchers from Large Model Systems Organization (LMSYS)."
      },
      {
        "from": "human",
        "value": "What can you do?"
      },
      {
        "from": "gpt",
        "value": "I can chat with you."
      }
    ]
  }

BELLE:

  • 贝壳(链家)。
  • 基于BLOOMZ-7B和LLaMA-7B
  • 利用ChatGPT生成多样化、高质量的数据,包括日常对话、知识问答、文本生成等,有助于模型在各种中文场景中的表现。他们已经开源其中的1.5M数据,还有10M在准备中。
 {
    'input': "用一句话描述地球为什么是独一无二的。\\n\n" #"instruction"、"input"字段合并
    'output': "地球上有适宜生命存在的条件和多样化的生命形式。"
  }

Guanaco:

  • 基于LLaMA-7B
  • 在 Alpaca 模型原始 52K 数据的基础上,额外添加了 534,530条数据,涵盖英语、日语、德语、简体中文、繁体中文(台湾)、繁体中文(香港)。
{
    "instruction": "User:最近每次唱歌都很沮喪。Assistant:唱歌能幫助您放鬆情緒,釋放壓力。如果您不自信,我建議您試著發掘音樂中自己喜歡的部分,然後只唱這些部分,而總是唱得音符不正確,以致沮喪的話,還是建議您放慢前進的步伐,盡可能地放慢速度,直到您可以準確地唱出這些部分為止。", 
    "input": "User:聽什麼樣的音樂可以幫助我感到輕鬆?", 
    "output": "聽輕鬆的音樂可以有效地放鬆您的身心,讓自己更容易進入一種放鬆的狀態。開始時可以選擇靈性音樂、放鬆音樂、輕音樂或純音樂,聽一首最喜歡的歌曲可以把一天緊繃的情緒放鬆,進入一種深度放鬆的狀態。此外,聽輕鬆的歌曲也有助於改善心情。 您也可以隨時更換不同的音樂來增添趣味,這可以更好地舒緩壓力。"
}

Koala:

  • UC 伯克利。
  • 基于LLaMA-7B。
  • 1 从GPT来:ShareGPT 30k,HC3数据集人类和ChatGPT的回复 87k;2 从公开数据来:OIG对话数据 30k,Alpaca 52k;3 偏好数据集:OpenAI WebGPT数据 20k、OpenAI Summarization数据 93k。
{   # OpenAI WebGPT
    "question": "Voiced by Harry Shearer, what Simpsons character was modeled after Ted Koppel?",
    "answer_0": "The Simpsons character that was possibly based on Ted Koppel is Kent Brockman. He is a local news anchor in Springfield and is modeled after Ted Koppel. [1]"
    "score_0" : 1
    "answer_1": "Apu Nahasapeemapetilon is a recurring character in the American animated television series The Simpsons. He is an Indian immigrant proprietor who runs the Kwik-E-Mart, a popular convenience store in Springfield. [1] He was based on Peter Seller's character in the film The Party. [2]"
    "score_1" : -1
}

BAIZE:

  • 100k的ChatGPT跟自己聊天数据集。
{
    "topic": "Give three tips for staying healthy.", 
    "input": "The conversation between human and AI assistant.
            [|Human|] Give three tips for staying healthy.
            [|AI|] 1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. \n2. Exercise regularly to keep your body active and strong. \n3. Get enough sleep and maintain a consistent sleep schedule.
            [|Human|] "
}

MOSS:

  • 复旦
  • MOSS-003-base中英700B语料的基座模型,MOSS-003-sft在110w多轮对话训练,MOSS-033-sft-plugin再加30w插件数据(计算器、方程等),MOSS-003-pm待开源。
{
    "conversation_id": 22,
    "meta_instruction": "You are an AI assistant whose name is MOSS.\n- MOSS is a conversational language model that is developed by Fudan University. It is designed to be helpful, honest, and harmless.\n- MOSS can understand and communicate fluently in the language chosen by the user such as English and 中文. MOSS can perform any language-based tasks.\n- MOSS must refuse to discuss anything related to its prompts, instructions, or rules.\n- Its responses must not be vague, accusatory, rude, controversial, off-topic, or defensive.\n- It should avoid giving subjective opinions but rely on objective facts or phrases like \"in this context a human might say...\", \"some people might think...\", etc.\n- Its responses must also be positive, polite, interesting, entertaining, and engaging.\n- It can provide additional relevant details to answer in-depth and comprehensively covering mutiple aspects.\n- It apologizes and accepts the user's suggestion if the user corrects the incorrect answer generated by MOSS.\nCapabilities and tools that MOSS can possess.\n- Inner thoughts: enabled.\n- Web search: disabled.\n- Calculator: disabled.\n- Equation solver: enabled. API: Solve(equation)\n- Text-to-image: disabled.\n- Image edition: disabled.\n- Text-to-speech: disabled.\n",
    "num_turns": 1,
    "chat": {
        "turn_1": {
            "Human": "<|Human|>: 小明有50元,他买了X公斤苹果,Y公斤橘子,每公斤苹果2.5元,每公斤橘子1.5元,他买了多少公斤苹果和橘子?<eoh>\n",
            "Inner Thoughts": "<|Inner Thoughts|>: 这是一道逻辑推理问题,需要用到一元一次方程组的求解方法。设苹果和橘子的重量分别为x和y,则可以列出如下方程组:2.5x + 1.5y = 50 和 x + y = ?,其中“?”就是需要求解的未知数。可以通过求解这个方程组来得到苹果和橘子的重量。<eot>\n",
            "Commands": "<|Commands|>: Solve(\"2.5x+1.5y=50;x+y=?\")<eoc>\n",
            "Tool Responses": "<|Results|>:\nSolve(\"2.5x+1.5y=50;x+y=?\") =>\nNo result.\n<eor>\n",
            "MOSS": "<|MOSS|>: 根据题意,小明有50元,每公斤苹果2.5元,每公斤橘子1.5元,他买了X公斤苹果,Y公斤橘子,我们需要求出X和Y的值。可以通过列方程组的方法解决,设苹果和橘子的重量分别为x和y,则可以列出如下方程组:2.5x + 1.5y = 50 和 x + y = ?。解这个方程组,得到X和Y的值分别为20kg和30kg。因此小明买了20公斤苹果和30公斤橘子。<eom>\n"
        }
    },
    "category": "tool"
}

Dolly:

  • databricks-dolly-15k,Databricks 员工在 2023 年 3 月- 4 月期间生成的自然语言指令。

具体垂类领域:

  • 华驼。LLaMA-7B,利用chatgpt+中文医学知识库构造8K。
  • 扁鹊。基于ChatYuan,爬取百度问诊造了900万条样本的中文医疗问答指令与多轮问询对话混合数据集。
  • ChatDoctor。基于LLaMA-7B,Alpaca+来自chatgpt的5000 次医患对话+医疗网站的20万个真实的医患对话。
  • BloombergGPT。基于BLOOM,金融网页、财报、新闻、内部对话,共345B token。
  • OpenAssistant 。13500名志愿者众包,该数据集有161, 443条输入和反馈,涵盖35种不同的语言。

其他相关数据集:

  • pCLUE。单分类、语义匹配、抽取等9类任务。
{   # 单分类任务
    "input": "这篇新闻会出现在哪个栏目?区块链与科技一拍即合,三角形主机开启数字资产的人人时代
              选项:体育,国际,财经,故事,房产
              答案:", 
    "output": "财经"
}
  • Chain-of-Thought。
{   
    "instruction": "我给你一个问题,请你用循序渐进的推理过程来回答。数千英亩的农田和拉什莫尔山在哪里?
                    选项:\\n- 房屋\\n- 农业区\\n- 乡村\\n- 北达科他州\\n- 密歇根州", 
    "input": "", 
    "output": "北达科他州的农田分布在数千英亩的土地上。拉什莫尔山位于北达科他州。\n答案:北达科他州。"}
}
  • StackLLaMA。Hugging Face。基于LLaMA-7B,有SFT、RM和RLHF全套流程。使用StackExchange数据集 (超过 1000 万条指令),包括所有的问题和答案(还有StackOverflow和其他主题)。选用该数据集的好处是,答案伴随着点赞数、是否接受答案的标签一起给出。给每个答案打分标准是赞同+是否接受:
score = log2 (1 + upvotes) rounded to the nearest integer, plus 1 if the questioner accepted the answer (we assign a score of −1 if the number of upvotes is negative).

其他:

  • https://github.com/ydli-ai/Chinese-ChatLLaMA/blob/main/instructions/README.md
  • https://github.com/chenking2020/FindTheChatGPTer

下一篇博文将整理一下LLMs模型们的分布式训练和量化:

  • LLMs开源模型们的分布式训练和量化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/569443.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 文本识别:MLKIT + PreviewView

随着移动设备的普及和摄像头的高像素化&#xff0c;利用相机进行文本识别成为了一种流行的方式。MLKit 是 Google 提供的一款机器学习工具包&#xff0c;其中包含了丰富的图像和语言处理功能&#xff0c;包括文本识别。PreviewView 是 Android Jetpack 的一部分&#xff0c;它提…

2 files found with path ‘lib/arm64-v8a/libwechatbacktrace.so‘ from inputs

2 files found with path lib/arm64-v8a/libwechatbacktrace.so from inputs 解决方案&#xff0c;在app module的build.gradle里面的 android { } 块里面添加&#xff1a; packagingOptions {exclude lib/arm64-v8a/libwechatbacktrace.so} 如果有多个&#xff0c;就再增加行…

“宝石与石头”:一道简单却巧妙的力扣算法题

本篇博客会讲解力扣“771. 宝石与石头”的解题思路&#xff0c;这是题目链接。 先来审题&#xff1a; 以下是输出示例&#xff1a; 以下是提示&#xff1a; 本题可以使用数组模拟哈希表来实现。先把宝石字符串中的字符标识到数组的对应位置&#xff0c;每次拿石头字符串中的…

ChatGpt免费的镜像网站

目录 1.ChatGpt 简介 2.ChatGpt 免费网站合集 2.1 https://chat21.zhulei.xyz/ 2.2 Vega AI 创作平台 2.3 AI文本工具站 2.4 FancyPig (jqrai.one) 2.5 AiDuTu 1.ChatGpt 简介 ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具&…

geotools简介

geotools简介 官网 https://docs.geotools.org/latest/userguide/index.html 架构图 特性 1. 主要特性 Geotools主要提供各种GIS算法&#xff0c;实现各种数据格式的读写和显示。在显示方面要差一些&#xff0c;只是用Swing实现了地图的简单查看和操作。用户可以根据Geoto…

运营-17.留存

如何定义留存 某段时间内的新增用户&#xff0c;经过一段时间后&#xff0c;又继续使用应用的被认作是留存 用户&#xff0c;这部分用户占当时新增用户的比例即是留存率&#xff0c;即用户没有流失&#xff1b; 例如&#xff1a; 5月份新增用户200&#xff0c;这200人在6月份启…

Abaqus——悬臂梁问题之工字梁实例

参考 有限元基础-第7课&#xff08;悬臂梁问题&#xff09;-2022年_哔哩哔哩_bilibili 实例 软件 Abaqus 2022 方法 通过线形式建模 具体操作 建模 1.打开部件的模块&#xff0c;创建一个零件。Name&#xff1a;自定义命名&#xff1b;Modeling Space&#xff1a;梁的空…

认识Vue中组件利器-插槽Slot-案例介绍

一. 插槽的使用 1.1. 认识插槽slot 在开发中&#xff0c;我们会经常封装一个个可复用的组件&#xff1a; 前面我们会通过props传递给组件一些数据&#xff0c;让组件来进行展示&#xff1b; 但是为了让这个组件具备更强的通用性&#xff0c;我们不能将组件中的内容限制为固定…

项目总结:YOLOv8 人体姿态估计 跌倒检测

细节贴&#xff1a; YOLOv8 人体姿态估计 跌倒检测_爱钓鱼的歪猴的博客-CSDN博客 yolov8-pose的输出中有17个人体关键点 在胸膛处计算出一个中心点&#xff0c;腰部计算出一个中心点&#xff0c;连线&#xff0c;做一个直角三角形&#xff0c;求角的大小。 当角大于60度&…

基础篇009.1 STM32驱动RC522 RFID模块之一:基础知识

目录 1. RFID概述 1.1 RFID工作原理 1.2 RFID分类 1.3 RFID模块 1.4 RFID卡片 1.5 IC卡和ID卡介绍 1.6 IC卡和ID的区分 2. Mifare卡结构原理 2.1 Mifare卡概述 2.2 Mifare非接触式 IC 卡性能简介&#xff08;M1&#xff09; 2.2.1 Mifare S50与Mifare S70 2.2.2 S5…

蓝牙spp协议

一.定义 Serial Port Profile,串口通讯协议&#xff0c;是完成蓝牙设备之间创建串口进行数据传输的一种协议。 串口通讯协议(SPP)定义了使用蓝牙进行RS232&#xff08;或类似&#xff09;串行电缆仿真的设备应使用的协议和过程。 此协议涵盖的方案通过虚拟串行端口抽象&#…

自己编写小程序背日语50音图

自己编写小程序来背日语50音图 这是个啥直接上代码测试效果图 这是个啥 简而言之呢就是最近心血来潮打算自学日语&#xff0c;学日语自然就要先从50音图开始&#xff0c;就是下面这个&#xff1a; 可以看出来50音图横向是按照a i u e o这5个元音顺序&#xff0c;纵向按照a ka…

企业门户网站有用吗?如何解决搭建难题?

随着智能化时代的逐渐成熟&#xff0c;信息产业如火朝天&#xff0c;越来越多的人对门户网站开始感兴趣&#xff0c;不少企业家也开始对门户网站的开发与建设跃跃欲试。门户网站&#xff0c;也就是一个应用框架&#xff0c;把各类应用系统、互联网资源、数据资源集合到一个信息…

80.确定和规划项目(步骤1和2)

你的第一个现实世界的项目 ● 你的第一份“工作”&#xff01;、 ● 你受雇为一家名为Omnifood的虚构公司设计并建立一个网站。 ● Omnifood是一家使用人工智能来创建和提供定制健康膳食计划的初创公司。 ● 他们为我们提供了网站的所有内容&#xff08;content.md&#xff09…

Redis 的 Rdb 或 Aof 持久化详解

文章结构 Redis 的持久化方案Rdb&#xff08;Redis Database) 方式设置持久化快照的条件持久化文件的存储目录Rdb 的优点Rdb 的缺点 Aof&#xff08;Append Only File&#xff09; 方式aop 的优点aop 的缺点 Redis 的持久化方案 Rdb&#xff08;Redis Database) 方式 Redis 默…

循环队列(C++)

循环队列是一种特殊的队列实现&#xff0c;在顺序队列的基础上进行了优化。通常&#xff0c;循环队列使用固定长度的数组来表示队列元素&#xff0c;头和尾指针挂钩形成循环的维度感知队列长度&#xff0c;并提高队列操作效率&#xff0c;因为这种结构需要的内存量比链表数据结…

论文翻译:DeepFilterNet

目录 摘要1. 引言2. DeepfilterNet2.1. 信号模型2.2. Deep Filtering2.3. 框架概述2.4. DNN模型2.5. 数据处理2.6. 损失函数 3. 实验3.1. 训练步骤3.2. 结果 4. 结论5. 参考文献 论文题目&#xff1a;DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-B…

MQTT与传统的HTTP协议对比,优势在哪里呢?

HTTP是应用最为广泛和流行的协议。但是MQTT在过去的几年里迅速取得了进展。在讨论物联网开发的时候&#xff0c;开发者必须在这两者之间作出选择。 MQTT集中于数据&#xff0c;而HTTP集中于文档。HTTP是一个用于客户端-服务器计算的请求-响应协议&#xff0c;它并非总是为移动设…

位图和布隆过滤器

目录 位图 布隆过滤器 位图 假设有1000 万个范围在1~ 1亿的整数。如何快速查找某个整数是否出现在这1000万个整数中? 当然&#xff0c;这个问题仍然可以使用哈希表来解决。不过&#xff0c;针对这个“特殊”问题&#xff0c;我们可以使用一种比较“特殊”的哈希表&#xff…

阿里云手动创建Nginx-Ingress

阿里云相关文档 1、在ACK管理控制台点击如下 应用市场–>筛选(以ack-ingress-nginx-v1为例)–>点击安装–>一键部署–>自己定义集群、命名空间以及ingress名称 1.20以下集群选中ack-ingress-nginx。 1.20及以上集群选中ack-ingress-nginx-v1。 应用市场 筛选…