2023年8月第3周大模型荟萃

news2025/1/13 17:31:42

2023年8月第3周大模型荟萃

  • 2023.8.22
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

1、LLM-Adapters:可将多种适配器集成到大语言模型

来自新加坡科技设计大学和新加坡管理大学的研究人员发布了一篇题为《LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models》的论文。该论文介绍了一种名为 LLM-Adapters 的适配器系列,用于大型语言模型的参数高效微调。该适配器系列可在不影响模型性能的情况下减少微调所需的参数数量,从而提高微调效率。

LLM-Adapters框架设计在研究、efficient、模块化和可扩展方面表现良好,允许集成新的适配器和用新的更大规模的语言模型进行评估。实验结果表明,在简单的数学推理任务上,使用较小规模语言模型的参数高效微调仅需要很少的可训练参数,就能达到强大语言模型在零样本推断中可比的性能。总体而言,LLM-Adapters 框架提供了一个有希望的框架来微调大型语言模型用于下游任务。

2、手机的算力也能运行大模型

开源社区有很多人都在探索大模型的优化方法。有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码,效果极好,获得了人们的广泛关注。GitHub 链接:https://github.com/ggerganov/llama.cpp

通过一些优化和量化权重,它能让我们在各种以前无法想象的硬件上本地运行 LLaMa 模型。其中:

  • 在谷歌 Pixel5 手机上,它能以 1 token/s 的速度运行 7B 参数模型。
  • 在 M2 芯片的 Macbook Pro 上,使用 7B 参数模型的速度约为 16 token/s
  • 我们甚至于可以在 4GB RAM 的树莓派上运行 7B 模型,尽管速度只有 0.1 token/s

3、Candle:Hugging Face 开源的新 ML 框架

GitHub 链接:https://github.com/huggingface/candle,Hugging Face 开源了一款新机器学习框架 Candle,它一改机器学习惯用 Python 的做法,而是 Rust 编写,重点关注性能(包括 GPU 支持)和易用性。

根据 Hugging Face 的介绍,Candle 的核心目标是让 Serverless 推理成为可能。像 PyTorch 这样的完整机器学习框架非常大,这使得在集群上创建实例的速度很慢。Candle 允许部署轻量级二进制文件。另外,Candle 可以让用户从生产工作负载中删除 Python。Python 开销会严重影响性能,而GIL是众所周知的令人头疼的问题。

4、字节跳动的大模型“豆包”正式上线使用

字节跳动的首个AI对话式APP“豆包”及其网页版已在近日上线,目前已开放安卓端的下载通道。豆包APP也就是为此前字节内部代号为“Grace”的AI项目,目前拥有文生文、文生图的功能。

官网主页:https://www.doubao.com/,可使用抖音账号直接扫描二维码使用。我使用了几天,主观感受是挺不错的。而根据字节跳动在大模型投入方面的信息来判断(比如采购10亿美元的英伟达显卡),字节大模型很可能会后来居上,排国内前三问题不大,问鼎也极有可能。

5、科大讯飞大模型演进到2.0

8月15日下午,科大讯飞“如期”在合肥召开了星火认知大模型V2.0升级发布会。按照此前“剧透”,本次升级是在星火1.5版本突破开放式问答、数学能力和多轮对话能力基础上的再一次飞跃,重点在代码能力、多模态交互能力上取得重大突破,同时发布了面向老师、学校、企业、开发者等多元的应用落地产品。

作为一名讯飞星火大模型的中度/重度用户,我个人的体会是:星火大模型从V1.0升级到V1.5,再从V1.5升级到V2.0,我的主观使用感受是大模型的智力没有任何提升,仍然时不时会出现答非所问,乱答一通的现象。而讯飞星火的两次大升级,真正明显进步的是大模型的应用场景和应用产品增加了,比如新增了编程助手iFlyCode。一句话,是大模型业务数量的增加。

6、GPT-4 新增内容审核能力

最近OpenAI表示,其开发了一种使用GPT-4进行内容审核的解决方案,有望减轻人工审核员的负担。将GPT-4用于内容策略开发和内容审核决策,从而实现更一致的标记、更快的策略优化反馈循环,以及减少人工审核人员的参与。内容审核在维持数字平台的健康方面发挥着至关重要的作用。使用GPT-4的内容审核系统可以更快地迭代策略更改,将周期从几个月缩短到几个小时。GPT-4还能够解释长内容策略文档中的规则和细微差别,并立即适应策略更新,从而实现更一致的标记。。

7、艾伦AI推出业界最大文本数据集Dolma

艾伦AI研究所(AI2)于8月19日在其官方博客发布用于训练大型语言模型(LLM)的文本数据集Dolma,包含3万亿个Tokens(词例),是迄今为止最大的开放文本数据集。

AI2声称,在AI竞争激烈的当下,大部分科技巨头都倾向于保守自家大模型开发的机密。而AI2公司希望通过公开透明化其数据集及之后的大模型,帮助更多的研究者在此基础上进一步进行研究和开发等工作。
Dolma

8、Meta将推出免费版编程工具

Meta即将于下周推出一款开源AI软件Code Llama,旨在帮助开发人员自动生成编程代码,是继Llama 2大语言模型后又一项可能颠覆人工智能领域的大胆举措。Code Llama将“暴力对标”OpenAI旗下的Codex模型,并较Meta的开源大语言模型Llama 2显著增强。Code Llama的开源属性将令企业用户更容易开发自有AI助手,后者可在开发人员键入时自动推荐代码,并与由Codex支持的微软GitHub Copilot等付费编程助手工具争夺客户。

有分析称,企业用户可能更倾向于使用开源的编程模型来开发自己的编程助手,以期保护其源代码。生成自动代码建议一直是大语言模型的最流行用途之一。Code Llama等开源模型可以帮助业内后起之秀更快地参与竞争,也令担心源代码安全的大公司更容易建构自己的内部模型,令外部付费供应商变得冗余,直接颠覆了行业动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/917117.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统之安装OneNav个人书签管理器

Linux系统之安装OneNav个人书签管理器 一、OneNav介绍1.OneNav简介2.OneNav特点 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本3.3 检查本地yum仓库状态 四、安装httpd服务4.1 安装httpd4.2 启动httpd服务4…

什么是客服外包?为什么越来越多的店家选择客服外包?

客服外包,即是将自己的客户服务体系交给更专业的团队。 1.省钱(无需人员成本、无需设备成本、无需支付薪资) 2.省时(无需招聘员工、无需员工管理、无需员工培训) 3.高效(人工AI智能、流水线操作、专业培…

如何拉取Gitee / GitHub上的Unity项目并成功运行

前言 由于目前大部分人使用的仓库都是Gitee或者是GitHub,包括小编的公司所使用的项目仓库也包括了Gitee;我们需要学习技术栈时都会去百度或者是去GitHub上看看别人的项目观摩学习,可能很多小白在遇到拉取代码时出现各种问题,或者…

Windows wsl2支持systemd

背景 很多Linux发行版都是使用systemd来管理程序进程,但是在WSL中默认是用init来管理进程的。 为了符合长久的使用习惯,且省去不必要的学习成本,就在WSL的发行版(我这里安装的是Ubuntu20.04)中支持systemd&#xff0…

每日汇评:英镑的韧性掩盖了更广泛的疲态,英镑相关货币分析

1、尽管英国CPI数据强劲,但英镑/美元未能延续涨势; 2、欧元/英镑向下突破的时机可能已经成熟,英镑/日元的反弹目前正在失去动力; 3、英镑交叉盘的关键水平至关重要; 上周英国公布强劲通胀数据后,英镑未能…

Microsoft Message Queuing Remote Code Execution Vulnerability

近期官方公布了一个MSMQ的远程代码执行漏洞,可能因为网络安全设备的更新,影响业务,值得大家关注。 Microsoft Message Queuing 概述 MicroSoft Message Queuing(微软消息队列)是在多个不同的应用之间实现相互通信的一种异步传输…

根据学生学习水平量身定制指导以促进知识蒸馏的效果

文章目录 Tailoring Instructions to Student’s Learning Levels Boosts Knowledge Distillation一、PPT内容P1 BackgroundP2 L2T--online distillationP3 L2T--Meta distillationP4 Approach--LGTMP5 Distillation influenceP6 Finite difference approximationP7 Teachers a…

VMware 17 Player下CentOS的安装与配置

本文详细记录VMware 17 Player的安装,以及其中Centos虚拟机的安装;内容包含下载、安装全过程;另外包含一些基本的应用测试阐述。 安装VMware VMware下载 点击即可下载:https://www.vmware.com/go/getplayer-win 官网里面找版本&…

对于pycharm 运行的时候不在cmd中运行,而是在python控制台运行的情况,如何处理?

对于pycharm 运行的时候不在cmd中运行,而是在python控制台运行的情况,如何处理? 比如,你在运行你的代码的时候 它总在python控制台运行,十分难受 解决方法 在pycharm中设置下即可,很简单 选择运行点击…

介绍Server-Sent Events,以及使用,超级简单!

一、SSE 的本质 严格地说,HTTP 协议无法做到服务器主动推送信息。但是,有一种变通方法,就是服务器向客户端声明,接下来要发送的是流信息(streaming)。 也就是说,发送的不是一次性的数据包&…

文心一言 VS 讯飞星火 VS chatgpt (80)-- 算法导论7.4 5题

五、如果用go语言,当输入数据已经“几乎有序”时,插入排序速度很快。在实际应用中,我们可以利用这一特点来提高快速排序的速度。当对一个长度小于 k 的子数组调用快速排序时,让它不做任何排序就返回。当上层的快速排序调用返回后&…

_0x4c9738 怎么还原?嘿,还真可以还原!

_0x4c9738 变量名还原,噂嘟假嘟? 代码混淆(obfuscation)和代码反混淆(deobfuscation)在爬虫、逆向当中可以说是非常常见的情况了,初学者经常问一个问题,类似 _0x4c9738 的变量名怎么…

免安装版本python安装pip模块

免安装版本python安装pip模块.md 免安装python 下载便携式 Python 版本 前往 Python 官方网站的下载页面,在“Looking for a specific release?”下拉菜单中选择一个合适的便携式版本(例如,Python 3.8.12 64-bit 精简版本)&am…

微鳄0A系统在电子加工业的应用

1.微鳄OA系统功能介绍 OA办公系统是可以通过特定流程或特定环节与日常事务联系在一起,使公文在流转、审批、发布等方面提高效率,实现办公管理规范化和信息规范化,降低企业运行成本。 微鳄365 OA办公系统含公文管理、考勤管理、考勤查询、报销…

C++--内存管理和模板

前言:在C中,内存管理是一项关键的任务,因为程序需要为变量、对象和数据结构等动态分配内存。有效的内存管理是确保程序在运行期间高效使用系统资源的重要一环。此外,C还引入了模板的概念,以提供一种通用的编程方式。模…

C++模板与泛型编程:条款41~48

"绝境之中才窥见 winner winner 无限的精彩" 条款41: 了解隐式接口和编译器多态 我们给出一组类定义和函数实现(无意义): class Widget { public:Widget();virtual ~Widget();virtual size_t size() const;virtual void normalize();void swap(Widget&…

19项第一之上,是63%的极致带宽降低

近日,2022 MSU世界视频编码器大赛成绩正式揭晓。报告显示,阿里媒体处理服务MPS(Alibaba Media Processing Service)s264及s265编码器共计斩获19项评测第一,相较大赛指定基准编码器(AWS Elemental MediaConv…

【Java8特性】——函数式接口方法引用

一、函数式(Functional)接口 1. 概述 如果一个接口中,只声明了一个抽象方法, 则这个接口就称为函数式接口。 注解:FunctionalInterface 显式指明改接口是一个函数式接口。可以检验是否是一个函数式接口,同…

利用 Databend 助力 CDH 分析 | 大参林

作者: 黄志武 大参林医药集团股份有限公司,信息中心数据库组组长,13年数据库行业从业经历,Oracle OCM,关注Oracle、MySQL、Redis、MongoDB、Oceanbase、Tidb、Polardb-X、TDSQL、CDH、Clickhouse、Doris、Databend等多…

【ES6】—【必备知识】—对象的扩展

一、属性简洁表示法 ES5 写法 let name xiao let age 30 let obj {name: name,age: age } console.log(obj) // {name: xiao, age: 30}ES6 简洁写法 对象的属性名 和 属性值的变量名相同,可以简写成 一个属性名 let name xiao let age 30 let obj {name,age …