LLMs之Falcon 180B:Falcon 180B的简介、安装、使用方法之详细攻略
导读:Falcon-180B是一个由TII发布的模型,它是Falcon系列的升级版本,是一个参数规模庞大、性能优越的开放语言模型,适用于各种自然语言处理任务,可以通过Hugging Face生态系统方便地使用和探索。以下是Falcon-180B的所有特点总结:
Falcon-180B = 拥有180B+3.5T的tokens+4096个GPU+700万个GPU小时
>>参数规模:Falcon-180B是当前最大的开放模型之一,具有1800亿个参数。它是迄今为止最大的公开可用语言模型。
>>训练数据:Falcon-180B使用TII的RefinedWeb数据集,经过大规模的预训练,共使用了3.5万亿个标记。其中85%的数据源自RefinedWeb,其余数据来自对话、技术论文和少量代码等多种数据。
>>训练方法:Falcon-180B的训练过程使用了4096个GPU,并在Amazon SageMaker上进行,总共耗时约700万个GPU小时。相比Llama 2,Falcon-180B的规模扩大了2.5倍,并使用了4倍的计算资源。
>>性能表现:Falcon-180B在自然语言任务中取得了最先进的结果。它在(pre-trained)开放模型中排名第一,并与PaLM-2 Large等专有模型相媲美。根据评估基准的不同,Falcon-180B的表现介于GPT 3.5和GPT4之间。
>>适用范围:Falcon-180B可用于商业用途,但有一些限制条件,不包括"hosting use"。对于商业目的的使用,建议查阅许可证并咨询您的法律团队。
目录
Falcon 180B的简介
1、Falcon 180B的优势:与谷歌PaLM 2相媲美,性能略低于GPT4
2、开放LLM排行榜
3、评价褒贬不一
Falcon 180B的安装
1、硬件要求
2、环境要求:Transformers 、bitsandbytes等
4、下载模型
5、在bfloat16中使用基础模型的示例
6、提示格式
7、聊天模型
Falcon 180B的使用方法
1、如何在线使用Falcon 180B?
Falcon 180B的简介
Falcon 180B是由TII发布的一款模型,它延续了Falcon系列的先前版本。从架构上看,Falcon 180B是Falcon 40B的一个放大版本,并建立在其创新之上,例如MQA多查询注意力以提高可扩展性。Falcon 180B在多达4096个GPU上同时训练,使用Amazon SageMaker进行训练,总共使用了约7,000,000个GPU小时(约71天),训练了3.5万亿个标记。这意味着Falcon 180B是Llama 2的2.5倍,并且使用了4倍的计算资源。
Falcon 180B的数据集主要包括来自RefinedWeb的网络数据(约85%)。此外,它还经过了一些策划数据的训练,如对话、技术论文和少量代码(约3%)。这个预训练数据集足够大,以至于即使3.5万亿个标记也不到一个epoch。发布的聊天模型是在聊天和指令数据集上进行微调的,其中包含几个大规模的对话数据集的混合。
商业用途:Falcon 180B可以用于商业用途,但在非常限制的条件下,不包括任何“托管使用”。如果您有兴趣以商业目的使用它,我们建议查阅许可证并咨询您的法律团队。
地址 | HuggingFace官网:https://huggingface.co/blog/falcon-180b GitHub官网:https://github.com/huggingface/blog/blob/main/falcon-180b.md |
时间 | 2023年9月6日 |
作者 | TII 阿布扎比的全球领先技术研究中心 |
1、Falcon 180B的优势:与谷歌PaLM 2相媲美,性能略低于GPT4
Falcon 180B是迄今为止最好的公开发布的LLM,在MMLU上表现优于Llama 2 70B和OpenAI的GPT-3.5,并且在HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD等方面与Google的PaLM 2-Large相媲美。根据评估基准,Falcon 180B通常介于GPT 3.5和GPT4之间,社区的进一步微调将会非常有趣,因为它现在是公开发布的。
2、开放LLM排行榜
在Hugging Face排行榜上,Falcon 180B以68.74分位居公开发布的预训练LLM中最高分,超过了Meta的LLaMA 2(67.35分)。
量化的Falcon模型在各项基准测试中保持了类似的指标。在评估torch.float16、8位和4位时,结果相似。请参阅Open LLM Leaderboard中的结果。
3、评价褒贬不一
@Rohan Paul:绝对令人难以置信... 超过了GPT-3.5,并且与Google的PaLM-2 Large媲美。改变游戏规则������
@Nate Klingenstein:我感谢您承担了竞争Meta AI塑造开放式权重LLM未来的责任。这真的令人兴奋,也许随着时间的推移,这将成为许多商业部署的支柱。我将尝试在这里实现这一目标。
@rjpalacio:比gpt-3.5多的参数,仍然无法击败llama 2
@Anupama Varma Chand:恭喜,TII,为阿联酋提供了强大的AI模型!
@Jim Fan(英伟达高级科学家)质疑:没有编码就不能声称“比GPT-3.5更好”或“接近GPT-4”
恭喜@TIIuae释放猎Falcon 180B !我为每一位OSS的LLMs喝彩。
虽然我不明白为什么代码只占训练组合的5%。这是迄今为止最有用的数据,可以促进推理,掌握工具的使用,并为人工智能代理提供动力。事实上,GPT-3.5是在Codex基础上进行微调的。
我没有看到任何编码基准数字。从有限的代码预训练来看,我认为它并不擅长于此。
没有编码就不能声称“比GPT-3.5更好”或“接近GPT-4”。它应该是预训练配方中不可或缺的一部分,而不是事后的微调。
此外,现在是时候转移到混合专家(MoE)的模型在30B+容量。到目前为止,我们只看到了OSS MoE LLM < 10B。是时候大规模扩大规模了。
Falcon 180B的安装
1、硬件要求
我们对用于不同用途运行模型所需的硬件进行了多次测试。这些不是最低要求,但是是我们能够获得的配置的最低要求。
2、环境要求:Transformers 、bitsandbytes等
Transformers | Falcon 180B在Hugging Face生态系统中可用,从Transformers版本4.33开始提供。 随着Transformers 4.33的发布,您可以使用Falcon 180B并利用HF生态系统中的所有工具,例如: >>训练和推理脚本和示例 >>安全文件格式(safetensors) >>与工具的集成,如bitsandbytes(4位量化),PEFT(参数高效微调)和GPTQ >>辅助生成(也称为“猜测解码”) >>用于更大上下文长度的RoPE扩展支持 >>丰富且强大的生成参数 使用该模型需要您接受其许可证和使用条款。请确保您已登录到您的Hugging Face帐户,并确保您安装了最新版本的transformers: pip install --upgrade transformers huggingface-cli login |
bitsandbytes | 使用bitsandbytes的8位和4位 Falcon 180B的8位和4位量化版本在与bfloat16参考相比的评估中几乎没有差异!这对于推理来说是非常好的消息,因为您可以放心使用量化版本以减少硬件要求。不过,请注意,8位推理比在4位中运行模型要快得多。 要使用量化,您需要安装bitsandbytes库,并在加载模型时简单地启用相应的标志: model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, load_in_8bit=True, device_map="auto", ) |
4、下载模型
地址:https://huggingface.co/tiiuae/falcon-180B
5、在bfloat16中使用基础模型的示例
bfloat16 | 这是如何在bfloat16中使用基础模型的示例。Falcon 180B是一个庞大的模型,因此请考虑上面表格中总结的硬件要求。 from transformers import AutoTokenizer, AutoModelForCausalLM import transformers import torch model_id = "tiiuae/falcon-180B" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, device_map="auto", ) prompt = "My name is Pedro, I live in" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") output = model.generate( input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"], do_sample=True, temperature=0.6, top_p=0.9, max_new_tokens=50, ) output = output[0].to("cpu") print(tokenizer.decode(output) 这可能会产生类似以下的输出: My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video. I love to travel and I am always looking for new adventures. I love to meet new people and explore new places. |
6、提示格式
基础模型没有提示格式。请记住,它不是一个会话模型或受过指导的模型,因此不要期望它生成会话响应 - 预训练模型是进一步微调的良好平台,但您可能不应该直接使用它。聊天模型具有非常简单的对话结构。
System:在这里添加可选的系统提示
User:这是用户输入
Falcon:这是模型生成的内容
User:这可能是第二轮输入
Falcon:等等
7、聊天模型
聊天模型 | 如上所述,为了进行聊天式推理,模型经过微调以遵循对话的版本使用了一个非常简单的训练模板。为了参考,您可以查看Chat演示中的format_prompt函数,它如下所示: def format_prompt(message, history, system_prompt): prompt = "" if system_prompt: prompt += f"System: {system_prompt}\n" for user_prompt, bot_response in history: prompt += f"User: {user_prompt}\n" prompt += f"Falcon: {bot_response}\n" prompt += f"User: {message}\nFalcon:" return prompt 正如您所见,用户的互动和模型的响应都以User:和Falcon:分隔符开头。我们将它们连接在一起,形成一个包含整个对话历史的提示。我们可以提供一个系统提示来调整生成样式。 |
Falcon 180B的使用方法
1、如何在线使用Falcon 180B?
您可以轻松在此空间或下面嵌入的游乐场中尝试Big Falcon模型(1800亿参数!)
与Falcon-180B-Chat交谈,头脑风暴想法,讨论您的假期计划等等!
✨ 这个演示由Falcon-180B提供支持,并在Ultrachat、Platypus和Airoboros的混合数据上进行了微调。Falcon-180B是由阿布扎比技术创新研究院(Technology Innovation Institute)开发的最先进的大型语言模型。它经过了3.5万亿令牌的训练(包括RefinedWeb数据),并在Falcon-180B TII许可下提供。它目前在���开放LLM排行榜上以预训练模型的身份获得���第一名。
��� 这只是一个初步的实验预览:我们打算在未来提供更具能力的Falcon版本,基于改进的数据集和RLHF/RLAIF。
��� 了解有关Falcon LLM的更多信息:falconllm.tii.ae
➡️️ 预期用途:此演示旨在展示Falcon-180B的早期微调,以说明在对话和指令数据集上微调的影响(以及限制)。我们鼓励社区在基础模型的基础上进一步构建,并创建更好的指导/聊天版本!
⚠️ 限制:该模型可以生成事实上不正确的信息,产生幻觉的事实和行为。由于它没有经过高级调整/对齐,因此它可以生成有问题的输出,尤其是在提示的情况下。最后,此演示仅限于约1,000个字的会话长度。
测试地址:https://huggingface.co/spaces/tiiuae/falcon-180b-demo
测试地址02:https://huggingface.co/blog/falcon-180b