深度学习-13-小语言模型之SmolLM的使用

news2024/12/24 18:33:26

文章附录

  • 1 SmolLM概述
    • 1.1 SmolLM简介
    • 1.2 下载模型
  • 2 运行
    • 2.1 在CPU/GPU/多 GPU上运行模型
    • 2.2 使用torch.bfloat16
    • 2.3 通过位和字节的量化版本
  • 3 应用示例
  • 4 问题及解决
    • 4.1 attention_mask和pad_token_id报错
    • 4.2 max_new_tokens=20
  • 5 参考附录

1 SmolLM概述

1.1 SmolLM简介

SmolLM是一系列尖端小型语言模型,提供三种规模的版本:分别为135M、360M和1.7B参数。这些模型基于Cosmo-Corpus构建,这是一个经过精心策划的高质量训练数据集。
在这里插入图片描述

Cosmo-Corpus涵盖了Cosmopedia v2(由Mixtral生成的280亿个token的合成教科书和故事)、
Python-Edu(来自The Stack的40亿个token的教育性Python样本)以及FineWeb-Edu(来自FineWeb的220亿个token的去重教育性网页样本)。在测试常识推理和世界知识的多个基准测试中,SmolLM模型与其他同类规模的模型相比展现出了有希望的结果。

据 Hugging Face 官方消息,Hugging Face 近日推出一系列 SmolLM小模型,包含多个不同参数的模型。

SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2137128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

六西格玛咨询:石油机械制造企业的成本控制与优化专家

一、石油机械制造行业现状及主要困扰 随着全球能源需求的日益增长,石油开采和生产设备需求不断增加,石油机械制造行业在过去数十年里得到了迅猛发展。然而,石油机械制造作为一个高度复杂且技术密集的行业,也面临着多重挑战。首先…

路由策略原理与配置

🐣个人主页 可惜已不在 🐤这篇在这个专栏 华为_可惜已不在的博客-CSDN博客 🐥有用的话就留下一个三连吧😼 目录 一. 原理概述 二. 实验目的 实验内容 实验拓扑 实验配置 三. 实验结果 一. 原理概述 路由策略Route-P…

STM32中的计时与延时

前言 在裸机开发中,延时作为一种规定循环周期的方式经常被使用,其中尤以HAL库官方提供的HAL_Delay为甚。刚入门的小白可能会觉得既然有官方提供的延时函数,而且精度也还挺好,为什么不用呢?实际上HAL_Delay中有不少坑,而这些也只是HAL库中无数坑的其中一些。想从坑里跳出来…

刻意练习:舒尔特方格提升专注力

1.功能描述 刻意练习:舒尔特方格提升专注力 如果发现自己存在不够专注的问题,可以通过一个小游戏来提升自己专注力--舒尔特方格。 舒尔特方格的实施步骤如下: 一张纸上画出5X5的空方格。在方格中,没有任何规律的随机填写数字1…

[数据集][目标检测]葡萄成熟度检测数据集VOC+YOLO格式1123张3类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1123 标注数量(xml文件个数):1123 标注数量(txt文件个数):1123 标注…

C++——多态的原理

多态的原理 多态的原理引入虚函数表 多态的原理 引入 如下代码的输出结果为() A.编译报错 B.运行报错 C.8 D.12 上⾯题⽬运⾏结果12bytes,除了_b和_ch成员,还多⼀个__vfptr放对象的前⾯(注意有些平台可能会放到对象的最后⾯&am…

【目标检测数据集】车辆分类数据集1880张7类VOC+YOLO(含摩托车、救护车、消防车、警车、警用摩托车、轿车、大车)

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1883 标注数量(xml文件个数):1883 标注数量(txt文件个数):1883 标注…

【C++知识扫盲】-----初识迭代器

1. 迭代器的基本概念 迭代器是一种抽象的指针类型,它使得你可以遍历容器中的元素而不需要知道容器的具体实现细节。迭代器可以用来访问容器中的元素、移动位置、比较位置等。 2. 迭代器的类型 输入迭代器(Input Iterator):只能…

大数据Flink(一百一十八):SQL水印操作(Watermark)

文章目录 ​​​​​​SQL水印操作(Watermark) 一、为什么要有WaterMark 二、​​​​​​​Watermark解决的问题 三、​​​​​​​​​​​​​​代码演示 ​​​​​​SQL水印操作(Watermark) 一、​​​​​​​为什么要…

出处不详 阻拦投篮

目录 阻拦投篮题目描述背景输入输出数据范围 题解解法 打赏 阻拦投篮 题目描述 背景 现在你得到了一个可以阻拦投篮的宝物,它会在投球后把篮球传送回运动员手上,但是宝物的成功率和篮球在空中运动的时间有关,并且在特定的时间点成功的几率…

152-钓鱼篇邮件钓鱼Ewomail系统网页克隆劫持用户后门上线

承接上节课没讲完的邮件钓鱼和全部的网页钓鱼 #知识点: 1、红队技能-网络钓鱼-邮件系统 2、邮件钓鱼-平台-Gophish&Swaks 3、邮件钓鱼-系统-smtp2go&SendCloud 4、邮件钓鱼-自定义-Ewomail&Postfix 5、网页钓鱼-克隆修改-劫持口令&下载后门 这…

测试工具笔记

性能测试是软件测试中非常重要的一部分,它可以帮助识别软件在高负载条件下的性能瓶颈。市面上有许多性能测试工具,它们各有特点和优势。以下是一些流行的性能测试工具: 1. LoadRunner: 由Micro Focus提供,是一个业界广…

实战外网配置——光猫桥接+路由器PPPoE拨号+防火墙外网链路健康检查+外网流量负载均衡

一、适用场景: 1、企业规模较大时,1条公网带宽流量可能不足,需要用到多条公网出口时。 2、企业有业务需要静态ip映射,但是因静态ip专线价格较高,所以需要拨号光纤承载较多的下行流量。 3、当公网出口有多条链路&#…

[项目][WebServer][CGI机制 设计]详细讲解

目录 1.何为CGI机制?2.理解CGI机制3.CGI接口设计1.ProcessNonCgi2.ProcessCgi 1.何为CGI机制? CGI(Common Gateway Interface)是外部应用程序(CGI程序)与WEB服务器之间的接口标准,是在CGI程序和WEB服务器之间传递信息的过程 2.理解CGI机制 …

鸿蒙OS Service Ability

鸿蒙OS Service模板的Ability基本概念 基于 Service 模板的 Ability(以下简称“Service”)主要用于后台运行任务(如执行音乐播放、文件下载等),但不提供用户交互界面。Service 可由其他应用或 Ability 启动&#xff0…

WEB攻防-PHP特性缺陷对比函数CTF考点CMS审计实例

知识点: 1、过滤函数缺陷绕过; 2、CTF考点与代码审计; 1、赋值 不会对比类型 类型也会对比 2、MD5 在使用比较md5的时候,只要第一位是相等的数字,则会值相等 3、intval 3、 %0a代表换行 4、 6、 7、 代码审计

Amoco:一款针对二进制源码的安全分析工具

关于Amoco Amoco是一款功能强大的二进制源码静态分析工具,该工具基于Python 3.8开发,可以帮助广大研究人员轻松对二进制程序执行静态符号分析。 工具特性 1、一个通用的指令解码框架,旨在减少实现对新架构的支持所需的时间。例如&#xff0c…

.NET内网实战:通过命令行解密Web.config

01阅读须知 此文所节选自小报童《.NET 内网实战攻防》专栏,主要内容有.NET在各个内网渗透阶段与Windows系统交互的方式和技巧,对内网和后渗透感兴趣的朋友们可以订阅该电子报刊,解锁更多的报刊内容。 02基本介绍 本文内容部分节选自小报童…

ICM20948 DMP代码详解(22)

接前一篇文章:ICM20948 DMP代码详解(21) 上一回讲到了inv_icm20948_wakeup_mems函数,没有讲完,本回把余下的内容讲完。为了便于理解和回顾,再次贴出inv_icm20948_wakeup_mems函数代码,在EMD-Cor…

【LLM:Gemini】文本摘要、信息提取、验证和纠错、重新排列图表、视频理解、图像理解、模态组合

开始使用Gemini 目录 开始使用Gemini Gemini简介 Gemini实验结果 Gemini的多模态推理能力 文本摘要 信息提取 验证和纠错 重新排列图表 视频理解 图像理解 模态组合 Gemini多面手编程助理 库的使用 引用 本文概述了Gemini模型和如何有效地提示和使用这些模型。本…