LLMs之Falcon 180B：Falcon 180B的简介、安装、使用方法之详细攻略

导读：Falcon-180B是一个由TII发布的模型，它是Falcon系列的升级版本，是一个参数规模庞大、性能优越的开放语言模型，适用于各种自然语言处理任务，可以通过Hugging Face生态系统方便地使用和探索。以下是Falcon-180B的所有特点总结：
Falcon-180B = 拥有180B+3.5T的tokens+4096个GPU+700万个GPU小时
>>参数规模：Falcon-180B是当前最大的开放模型之一，具有1800亿个参数。它是迄今为止最大的公开可用语言模型。
>>训练数据：Falcon-180B使用TII的RefinedWeb数据集，经过大规模的预训练，共使用了3.5万亿个标记。其中85%的数据源自RefinedWeb，其余数据来自对话、技术论文和少量代码等多种数据。
>>训练方法：Falcon-180B的训练过程使用了4096个GPU，并在Amazon SageMaker上进行，总共耗时约700万个GPU小时。相比Llama 2，Falcon-180B的规模扩大了2.5倍，并使用了4倍的计算资源。
>>性能表现：Falcon-180B在自然语言任务中取得了最先进的结果。它在(pre-trained)开放模型中排名第一，并与PaLM-2 Large等专有模型相媲美。根据评估基准的不同，Falcon-180B的表现介于GPT 3.5和GPT4之间。
>>适用范围：Falcon-180B可用于商业用途，但有一些限制条件，不包括"hosting use"。对于商业目的的使用，建议查阅许可证并咨询您的法律团队。

Falcon 180B的简介

1、Falcon 180B的优势：与谷歌PaLM 2相媲美，性能略低于GPT4

2、开放LLM排行榜

3、评价褒贬不一

Falcon 180B的安装

1、硬件要求

2、环境要求：Transformers 、bitsandbytes等

4、下载模型

5、在bfloat16中使用基础模型的示例

6、提示格式

7、聊天模型

Falcon 180B的使用方法

1、如何在线使用Falcon 180B？

Falcon 180B的简介

Falcon 180B是由TII发布的一款模型，它延续了Falcon系列的先前版本。从架构上看，Falcon 180B是Falcon 40B的一个放大版本，并建立在其创新之上，例如MQA多查询注意力以提高可扩展性。Falcon 180B在多达4096个GPU上同时训练，使用Amazon SageMaker进行训练，总共使用了约7,000,000个GPU小时(约71天)，训练了3.5万亿个标记。这意味着Falcon 180B是Llama 2的2.5倍，并且使用了4倍的计算资源。

Falcon 180B的数据集主要包括来自RefinedWeb的网络数据（约85％）。此外，它还经过了一些策划数据的训练，如对话、技术论文和少量代码（约3%）。这个预训练数据集足够大，以至于即使3.5万亿个标记也不到一个epoch。发布的聊天模型是在聊天和指令数据集上进行微调的，其中包含几个大规模的对话数据集的混合。

商业用途：Falcon 180B可以用于商业用途，但在非常限制的条件下，不包括任何“托管使用”。如果您有兴趣以商业目的使用它，我们建议查阅许可证并咨询您的法律团队。

地址

HuggingFace官网：https://huggingface.co/blog/falcon-180b

GitHub官网：https://github.com/huggingface/blog/blob/main/falcon-180b.md

时间

2023年9月6日

作者

TII

阿布扎比的全球领先技术研究中心

1、Falcon 180B的优势：与谷歌PaLM 2相媲美，性能略低于GPT4

Falcon 180B是迄今为止最好的公开发布的LLM，在MMLU上表现优于Llama 2 70B和OpenAI的GPT-3.5，并且在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD等方面与Google的PaLM 2-Large相媲美。根据评估基准，Falcon 180B通常介于GPT 3.5和GPT4之间，社区的进一步微调将会非常有趣，因为它现在是公开发布的。

2、开放LLM排行榜

在Hugging Face排行榜上，Falcon 180B以68.74分位居公开发布的预训练LLM中最高分，超过了Meta的LLaMA 2（67.35分）。

量化的Falcon模型在各项基准测试中保持了类似的指标。在评估torch.float16、8位和4位时，结果相似。请参阅Open LLM Leaderboard中的结果。

3、评价褒贬不一

@Rohan Paul：绝对令人难以置信... 超过了GPT-3.5，并且与Google的PaLM-2 Large媲美。改变游戏规则��
@Nate Klingenstein：我感谢您承担了竞争Meta AI塑造开放式权重LLM未来的责任。这真的令人兴奋，也许随着时间的推移，这将成为许多商业部署的支柱。我将尝试在这里实现这一目标。
@rjpalacio：比gpt-3.5多的参数，仍然无法击败llama 2
@Anupama Varma Chand：恭喜，TII，为阿联酋提供了强大的AI模型！

@Jim Fan(英伟达高级科学家)质疑：没有编码就不能声称“比GPT-3.5更好”或“接近GPT-4”
恭喜@TIIuae释放猎Falcon 180B !我为每一位OSS的LLMs喝彩。
虽然我不明白为什么代码只占训练组合的5%。这是迄今为止最有用的数据，可以促进推理，掌握工具的使用，并为人工智能代理提供动力。事实上，GPT-3.5是在Codex基础上进行微调的。
我没有看到任何编码基准数字。从有限的代码预训练来看，我认为它并不擅长于此。
没有编码就不能声称“比GPT-3.5更好”或“接近GPT-4”。它应该是预训练配方中不可或缺的一部分，而不是事后的微调。
此外，现在是时候转移到混合专家(MoE)的模型在30B+容量。到目前为止，我们只看到了OSS MoE LLM < 10B。是时候大规模扩大规模了。

Falcon 180B的安装

1、硬件要求

我们对用于不同用途运行模型所需的硬件进行了多次测试。这些不是最低要求，但是是我们能够获得的配置的最低要求。

2、环境要求：Transformers 、bitsandbytes等

Transformers

Falcon 180B在Hugging Face生态系统中可用，从Transformers版本4.33开始提供。

随着Transformers 4.33的发布，您可以使用Falcon 180B并利用HF生态系统中的所有工具，例如：

>>训练和推理脚本和示例

>>安全文件格式（safetensors）

>>与工具的集成，如bitsandbytes（4位量化），PEFT（参数高效微调）和GPTQ

>>辅助生成（也称为“猜测解码”）

>>用于更大上下文长度的RoPE扩展支持

>>丰富且强大的生成参数

使用该模型需要您接受其许可证和使用条款。请确保您已登录到您的Hugging Face帐户，并确保您安装了最新版本的transformers：

pip install --upgrade transformers

huggingface-cli login

bitsandbytes

使用bitsandbytes的8位和4位

Falcon 180B的8位和4位量化版本在与bfloat16参考相比的评估中几乎没有差异！这对于推理来说是非常好的消息，因为您可以放心使用量化版本以减少硬件要求。不过，请注意，8位推理比在4位中运行模型要快得多。

要使用量化，您需要安装bitsandbytes库，并在加载模型时简单地启用相应的标志：

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

load_in_8bit=True,

device_map="auto",

)

4、下载模型

地址：https://huggingface.co/tiiuae/falcon-180B

5、在bfloat16中使用基础模型的示例

bfloat16

这是如何在bfloat16中使用基础模型的示例。Falcon 180B是一个庞大的模型，因此请考虑上面表格中总结的硬件要求。

from transformers import AutoTokenizer, AutoModelForCausalLM

import transformers

import torch

model_id = "tiiuae/falcon-180B"

tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

)

prompt = "My name is Pedro, I live in"

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

output = model.generate(

input_ids=inputs["input_ids"],

attention_mask=inputs["attention_mask"],

do_sample=True,

temperature=0.6,

top_p=0.9,

max_new_tokens=50,

)

output = output[0].to("cpu")

print(tokenizer.decode(output)

这可能会产生类似以下的输出：

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.

I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

6、提示格式

基础模型没有提示格式。请记住，它不是一个会话模型或受过指导的模型，因此不要期望它生成会话响应 - 预训练模型是进一步微调的良好平台，但您可能不应该直接使用它。聊天模型具有非常简单的对话结构。

System：在这里添加可选的系统提示

User：这是用户输入

Falcon：这是模型生成的内容

User：这可能是第二轮输入

Falcon：等等

7、聊天模型

聊天模型

如上所述，为了进行聊天式推理，模型经过微调以遵循对话的版本使用了一个非常简单的训练模板。为了参考，您可以查看Chat演示中的format_prompt函数，它如下所示：

def format_prompt(message, history, system_prompt):

prompt = ""

if system_prompt:

prompt += f"System: {system_prompt}\n"

for user_prompt, bot_response in history:

prompt += f"User: {user_prompt}\n"

prompt += f"Falcon: {bot_response}\n"

prompt += f"User: {message}\nFalcon:"

return prompt

正如您所见，用户的互动和模型的响应都以User:和Falcon:分隔符开头。我们将它们连接在一起，形成一个包含整个对话历史的提示。我们可以提供一个系统提示来调整生成样式。

Falcon 180B的使用方法

1、如何在线使用Falcon 180B？

您可以轻松在此空间或下面嵌入的游乐场中尝试Big Falcon模型（1800亿参数！）

与Falcon-180B-Chat交谈，头脑风暴想法，讨论您的假期计划等等！

✨ 这个演示由Falcon-180B提供支持，并在Ultrachat、Platypus和Airoboros的混合数据上进行了微调。Falcon-180B是由阿布扎比技术创新研究院（Technology Innovation Institute）开发的最先进的大型语言模型。它经过了3.5万亿令牌的训练（包括RefinedWeb数据），并在Falcon-180B TII许可下提供。它目前在��开放LLM排行榜上以预训练模型的身份获得��第一名。

�� 这只是一个初步的实验预览：我们打算在未来提供更具能力的Falcon版本，基于改进的数据集和RLHF/RLAIF。

�� 了解有关Falcon LLM的更多信息：falconllm.tii.ae

➡️️ 预期用途：此演示旨在展示Falcon-180B的早期微调，以说明在对话和指令数据集上微调的影响（以及限制）。我们鼓励社区在基础模型的基础上进一步构建，并创建更好的指导/聊天版本！

⚠️ 限制：该模型可以生成事实上不正确的信息，产生幻觉的事实和行为。由于它没有经过高级调整/对齐，因此它可以生成有问题的输出，尤其是在提示的情况下。最后，此演示仅限于约1,000个字的会话长度。

测试地址：https://huggingface.co/spaces/tiiuae/falcon-180b-demo
测试地址02：https://huggingface.co/blog/falcon-180b