传神论文中心|第15期人工智能领域论文推荐

news2024/12/24 2:38:40

在人工智能领域的快速发展中,我们不断看到令人振奋的技术进步和创新。近期,开放传神(OpenCSG)社区发现了一些值得关注的成就。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论文推荐链接。

01 ESM3

传神社区注意到这篇文章中有以下亮点:ESM3是一款基于大型语言模型的全新生物模型,其生成了一种新的绿色荧光蛋白,称为esmGFP。该模型基于双向变换器,使用掩码语言模型作为目标函数,同时利用几何注意力机制来表示原子坐标,并应用链式思维提示生成荧光蛋白。ESM3估计,esmGFP相当于由进化模拟器完成的超过5亿年的自然进化。这表明ESM3不仅在蛋白质生成上具有开创性意义,还展示了其在生物计算和进化模拟中的强大潜力。

论文推荐链接:

https://www.opencsg.com/daily_papers/TK6CLeaCWPGz

图片

02 Gemma 2

传神社区注意到这篇文章中有以下亮点:这篇论文介绍了一款名为Gemma 2的模型家族,其参数范围从2B到27B不等。Gemma 2在推理、数学和代码生成方面展示了强大的能力,甚至超越了参数量是其两倍的模型。这表明Gemma 2不仅在多个关键任务上表现出色,还在效率和性能之间找到了平衡,具有重要的研究和应用价值。

论文推荐链接:

https://opencsg.com/daily_papers/GyqXDh8jmvLo


 

图片

03 LLM Compiler

传神社区注意到这篇文章中有以下亮点:LLM Compiler是一组专为代码优化任务设计的开源预训练模型(参数量分别为7B和13B)。这些模型基于Code Llama构建,并在包含5460亿个LLVM-IR和汇编代码的语料库上进行训练。此外,这些模型经过指令微调以解释编译器行为。该模型组实现了自动调优搜索77%的优化潜力,并且在14%的情况下能够准确进行反汇编,与其训练所用的自动调优技术相比表现出色。这表明这些模型在代码优化和编译器行为模拟方面具有重要应用前景。

论文推荐链接:

https://opencsg.com/daily_papers/nUpLWqhMSW2M

图片

04 Enhancing RAG with Long-Context LLMs

传神社区注意到这篇文章中有以下亮点:这篇论文介绍了一种名为LongRAG的新方法,该方法结合了RAG和长上下文大型语言模型(LLM)以增强性能。LongRAG使用长检索器,通过处理更长的检索单元,显著减少了提取的单元数量。长阅读器接收这些长检索单元,并利用长上下文LLM的零样本答案提取能力来提高整个系统的性能。该方法在HotpotQA(全维基)数据集上达到了64.3%的成绩,与当前最先进的模型表现相当。这表明LongRAG在复杂问答任务中具有显著的潜力和竞争力。

论文推荐链接:

https://opencsg.com/daily_papers/Bv5dyXH3UhuL

图片

05 Improving Retrieval in LLMs through Synthetic Data

传神社区注意到这篇文章中有以下亮点:这篇论文介绍了一种通过合成数据改进大型语言模型(LLM)信息检索的微调方法。这种方法在提高信息检索准确性的同时,保持了对长上下文输入的推理能力。微调数据集包含350个数字字典键值检索任务样本。研究发现,这种方法缓解了“中途丢失”现象,并在信息检索和长上下文推理方面均提高了性能。这表明该微调方法在增强LLM的信息检索能力和长上下文处理能力方面具有显著效果。

论文推荐链接:

https://opencsg.com/daily_papers/gqV1FTpUCZ1r

图片

06 GraphReader

传神社区注意到这篇文章中有以下亮点:GraphReader是一种图基代理系统,用于增强大型语言模型(LLM)的长上下文能力。GraphReader将长文本结构化为图,并通过代理使用预定义函数和逐步的合理计划来探索图,以有效生成问题的答案。在上下文长度从16k到256k的范围内,GraphReader的表现始终优于GPT-4-128k。这表明GraphReader在处理长文本和复杂问答任务中具有显著的优势。

论文推荐链接:

https://opencsg.com/daily_papers/Sz5yxj8GGzXX

图片

07 Faster LLM Inference with Dynamic Draft Trees

传神社区注意到这篇文章中有以下亮点:《Faster LLM Inference with Dynamic Draft Trees》提出了一种上下文感知的动态草稿树方法,用于提升大型语言模型的推理速度。相比之前依赖位置的静态草稿树方法,动态草稿树通过增加接受的草稿标记数量,显著提高了推理速度,达到了3.05倍至4.26倍的加速比,比之前的工作快了20%-40%。这种创新方法在优化LLM推理效率方面表现出色,值得关注。

论文推荐链接:

https://opencsg.com/daily_papers/asX5jXi6wJH2

图片

08 Following Length Constraints in Instructions

传神社区注意到这篇文章中有以下亮点:《Following Length Constraints in Instructions》提出了一种处理长度偏差的方法,使语言模型能够更好地遵循长度限制指令。该方法通过使用包含长度指令的增强数据集对模型进行DPO微调,显著减少了长度限制的违反情况,同时保持了高响应质量。这种创新方法在优化模型遵循长度限制指令方面表现出色。

论文推荐链接:

https://opencsg.com/daily_papers/HgrXAm9a7HHt

图片

09 On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation 

传神社区注意到这篇文章中有以下亮点:《On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation》综述了基于大型语言模型(LLM)的合成数据生成、管理和评估方法。论文亮点包括全面介绍了LLM在合成数据生成方面的最新进展、数据管理技术以及评估方法,展示了LLM在提高数据质量和多样性方面的强大潜力。

论文推荐链接:

https://opencsg.com/daily_papers/FLcCpuwNFUHu

图片

10 Adam-mini

传神社区注意到这篇文章中有以下亮点:Adam-mini是一种新的优化器,通过使用更少的学习率减少了45%-50%的内存占用,同时在性能上与AdamW相当甚至更优。该优化器将参数精细地分块,并为每个块分配单一的高质量学习率,从而超越Adam。在从125M到7B规模的语言模型上进行预训练、SFT和RLHF时,Adam-mini始终表现出一致的优异性能。

论文推荐链接:

https://opencsg.com/daily_papers/CAVfZHYCuCjA

图片

 

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885048.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【linux】虚拟机安装 BCLinux-R8-U4-Server-x86_64

目录 一、概述 1.1移动云Linux系统订阅服务 CLS 1.2 大云天元操作系统BC-Linux 二、安装 一、概述 1.1移动云Linux系统订阅服务 CLS 移动云Linux系统订阅服务 CLS (Cloud Linux Service)为使用BC-Linux操作系统的用户提供标准维保服务以及高级技术支…

JVM原理(九):JVM虚拟机工具之可视化故障处理工具

1. JHSDB:基于服务性代理的调试工具 JHSDB是一款基于服务性代理实现的进程外调试工具。 服务性代理是HotSpot虚拟机中一组用于映射Java虚拟机运行信息的、主要基于Java语言实现的API集合。 2. JConsole:Java监视与管理控制台 JConsole是一款基于JMX的可视化监视、管理工具。…

矩阵、混剪、大盘,3大功能升级优化!助力企业高效管理!

在数字化转型的浪潮中,企业对于工具与技术的需求愈发强烈。 为满足市场需求,本月【云略】为各企业上线了便捷功能,赋能企业经营决策和业务增长。 矩阵管理 √【矩阵号管理】抖音支持设置城市IP 内容管理 √【混剪任务】支持关联智能发布计…

模拟 ADC 的前端

ADC 的 SPICE 模拟 反复试验的方法将信号发送到 ADC 非常耗时,而且可能有效也可能无效。如果转换器捕获电压信息的关键时刻模拟输入引脚不稳定,则无法获得正确的输出数据。SPICE 模型允许您执行的步是验证所有模拟输入是否稳定,以便没有错误…

百家讲坛 | 裴伟伟:企业中安全团队应当如何反馈漏洞

作者简介:裴伟伟,洞源实验室创始人,国家网安基地网络安全行业专家,网安加社区特聘专家,持有CISSP、PMP证书,曾在HITCON、可信云大会、开源产业大会等安全论坛发表演讲。曾任国内某安全实验室负责人、某互金…

3.js - 色调映射(renderer.toneMapping)

// ts-nocheck// 引入three.js import * as THREE from three// 导入轨道控制器 import { OrbitControls } from three/examples/jsm/controls/OrbitControls// 导入lil.gui import { GUI } from three/examples/jsm/libs/lil-gui.module.min.js// 导入tween import * as TWEEN…

Stable DIffusion 线稿上色+风格迁移教程,建议收藏!

前言 Stable Diffusion 线稿上色与风格迁移教程。 欢迎来到Stable Diffusion的线稿上色与风格迁移教程!在这个教程中,我们将引导你如何使用Stable Diffusion技术,将你的线稿作品进行上色,并迁移到不同的艺术风格。让我们开始吧&a…

双端队列广搜——AcWing 175. 电路维修

双端队列广搜 定义 双端队列广搜(Breadth-First Search with a Deque)是一种图或树的遍历算法变体,它利用了双端队列(Deque,全称Double Ended Queue,允许在其两端进行插入和删除操作)作为数据…

CentOS7源码安装nginx并编写服务脚本

华子目录 准备下载nginx源码包关闭防火墙关闭selinux安装依赖环境 解压编译安装测试编写服务脚本,通过systemctl实现服务启动与关闭测试 准备 下载nginx源码包 在源码安装前,我们得先下载nginx源码包https://nginx.org/download/这里我下载的是nginx-1…

PHP景区旅游多商户版微信小程序系统源码

解锁景区新玩法!​ 引言:一站式旅行新体验 厌倦了传统景区的单调游览?想要一次旅行就能体验多种风情?那么,“景区旅游多商户版”绝对是你的不二之选!这个创新模式将景区内多个商户资源整合,为…

Golang-context理解

golang-context笔记整理 golang为何设计context?代码上理解原理空context类cancelCtx类.withcancelctx方法 timerCtx类valueCtx类 golang为何设计context? 有并发特性的语言中,都会有一种说法:创建异步线程或者携程的时候&#x…

【Altium】如何处理PCB上所有焊盘被误盖油

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 解决焊盘被误盖油的操作 2、 问题场景 所有焊盘都可以设置为盖油或不盖油,由于焊盘需要用来焊接元器件,所以都不会设置盖油。由于误操作或者创建封装时设置错误,造成一定数量的焊盘…

【GD32】07 - UART串口通信

GD32F407中的UART 今天我用的型号是GD32F407,用其他型号的小伙伴在使用UART的时候注意一下自己手上板子的资源就行,我们使用固件库就算是不同型号其实也是没有什么太大差别的。 我们废话不多说,直接开始讲怎么使用UART。 首先我们先确定串…

【面试干货】Static关键字的用法详解

【面试干货】Static关键字的用法详解 1、Static修饰内部类2、Static修饰方法3、Static修饰变量4、Static修饰代码块5、总结 💖The Begin💖点点关注,收藏不迷路💖 在Java编程语言中,static是一个关键字,它可…

猫头虎博主全栈前沿AI技术领域矩阵社群

猫头虎博主全栈前沿AI技术领域矩阵社群 👋大家好,我是猫头虎!今天我要向大家介绍一个非常重要的社群矩阵——专为全栈前沿AI技术领域的朋友们打造的各种技术交流和资源互助的社群。这些社群不仅能帮助大家快速提升技术水平,还能拓…

深度学习笔记: 最详尽解释混淆矩阵 Confusion Matrix

欢迎收藏Star我的Machine Learning Blog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star, 有问题可以随时与我交流, 谢谢大家! 混淆矩阵 假设我们有包含临床测量数据的医疗数据,例如胸痛、良好的血液循环、动脉阻塞和体重…

LeetCode 子集

原题链接78. 子集 - 力扣(LeetCode) 这是一道暴力搜索问题参考大佬们的题解,对这类题目做出一下总结 1.确定递归参数变量 2.递归结束条件 3.做出选择,递归调用进入下一层 4.回溯,返回到递归前的状态 要完成前面这…

Golang内存分配

Go内存分配语雀笔记整理 Golang内存模型设计理念思考核心代码阅读mspanmcachemcentral中心缓存mheap分配过程 Golang内存模型设计理念思考 golang内存分配基于TCmalloc模型,它核心在于:空间换时间,一次缓存,多次复用;…

重大丨深中通道今通车!继港珠澳大桥后,三思再度点亮世界工程

6月30日下午3时,国家重大工程深中通道正式通车试运营,向世界再次展示中国智慧和基建实力。已承接过包括港珠澳大桥海底隧道在内2500多条隧道照明工程的上海三思电子工程有限公司,为这座超级工程提供了LED隧道照明、东西人工岛照明及显示、管理…

HAP官方力作:MEGA项目管理应用正式上线

开发背景 自2024年3月起,明道云推出了MEGA系列应用,基于MEGA Industrial的经营业务,逐步拓展至企业价值链的各个环节(MEGA Industrial Co 是明道云预设的一家虚拟公司,主要面向工业制造行业客户,提供产线规…