大模型日报-20240130

news2024/11/17 3:29:28

500行代码构建对话搜索引擎,贾扬清被内涵的Lepton Search真开源了

在这里插入图片描述
来了,贾扬清承诺的 Lepton Search 开源代码来了。前天,贾扬清在 Twitter 上公布了 Lepton Search 的开源项目链接,并表示任何人、任何公司都可以自由使用开源代码。也就是说,你也可以用不到 500 行 Python 代码构建自己的对话搜索引擎了。今天,Lepton Search 又登上了 GitHub trending 榜单。此外已经有人将这个开源项目用来构建自己的 Web 应用程序了,并表示质量非常高,与 AI 驱动的搜索引擎 Perplexity 不相上下。

基于量子辅助深度学习的逆向分子设计

在这里插入图片描述
康奈尔大学Fengqi You教授团队,通过结合量子计算(QC)与生成式AI的优势,提出了一个新颖的逆向分子设计框架。该框架利用QC辅助的深度学习模型来学习和模拟化学空间,从而预测并生成具有特定化学性质的分子结构。生成式AI在此过程中起着核心作用,它能够从大量的分子数据中学习潜在的结构-性质关系,并生成新的分子候选物,这些分子不仅符合预设的性质,还考虑到合成的可行性。量子计算的加入则为这一过程提供了高效的计算能力和优化算法,克服了传统计算机在处理大规模化学系统时的性能瓶颈。通过这种量子-经典混合计算框架,研究人员能够在复杂的化学空间中进行高效、有效的分子设计,为新分子的发现和材料科学的进步开辟了新途径。

百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4

在这里插入图片描述
走月更路线的百川智能,在年前猛地加速,变成了半月更:发布了超千亿参数的最新版本大模型Baichuan 3,是百川智能基础模型第三代——就在20天前,这家由王小川创办的大模型公司,刚刚发布过角色大模型Baichuan-NPC。更具标志性的是,百川智能这次模型更新,重点展示了模型在医疗场景的能力。

Meta官方的Prompt工程指南:Llama 2这样用更高效

在这里插入图片描述
随着大型语言模型(LLM)技术日渐成熟,提示工程(Prompt Engineering)变得越来越重要。一些研究机构发布了 LLM 提示工程指南,包括微软、OpenAI 等等。最近,Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南,涵盖了 Llama 2 的快速工程和最佳实践。

AI也造代码屎山!研究发现GitHub Copilot代码可维护性差,偏爱“无脑重写”而非重构复用已有代码

在这里插入图片描述
AI帮忙写代码程序员用了都说好,但代码质量真的靠谱吗?结果或许令你大跌眼镜。一家名为GitClear的公司分析了近四年超过1.5亿行代码后发现,随着GitHub Copilot工具的加入,代码流失率(即代码写入后不久又被返工修改、删除的情况)出现了显著上升:2023年为7.1%,而2020年时仅为3.3%,翻了一番。

OpenAI 董事会主席 Bret Taylor 的 AI 公司估值 10 亿美元!红杉美国领投,专注企业解决方案

在这里插入图片描述
Bret Taylor,前 Salesforce 联合 CEO,他曾创立了一家开发了基于云的文字处理器和电子表格应用 Quip 的软件公司,2016 年以约 7.5亿 美元的价格出售给了 Salesforce。去年,Taylor 加入了 OpenAI 董事会,担任董事长,并在与 ChatGPT 制造商前董事会的一项协议中,帮助重新任命了被罢免的 CEO Sam Altman。外媒预计 Taylor 的角色是临时性的,以便他能够回到自己的公司。这家公司名为 Sierra 的 AI 初创公司,由 Bret Taylor 和前谷歌高管,曾领导谷歌 AR/VR 工作的 Clay Bavor 共同创立,正进行一轮新的融资活动。

从零手搓MoE大模型,大神级教程来了

在这里插入图片描述https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch

传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了!Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。这个项目被作者叫做MakeMoE,详细讲述了从注意力构建到形成完整MoE模型的过程。作者介绍,MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。makemore是一个针对自然语言处理和机器学习的教学项目,意在帮助学习者理解并实现一些基本模型。同样,MakeMoE也是在一步步的搭建过程中,帮助学习者更深刻地理解混合专家模型。

elvis:多模态大型语言模型的进展

在这里插入图片描述
elvis:最近几周,我们看到了多模态大型语言模型(MM-LLMs)研究论文的激增。

在这些出版物中,有一项很好的综合调查,总结了26种现有的MM-LLMs。

它还包括增强这些模型的训练配方、洞察力和一些有前途的研究方向。

能够轻松调整和增强这些系统真是不可思议。这也要感谢最近围绕MM-LLMs的开源工作,包括数据集、基准测试和模型。

Jeremy Howard 分享《CUDA-MODE 讲座3:CUDA入门》:面向所有Python背景的人的CUDA入门

在这里插入图片描述
CUDA-MODE 讲座3:CUDA入门

视频:https://youtu.be/6E7K4SGlXas?si=x1pCOaGdRZrvDMqw

笔记本:https://github.com/cuda-mode/lecture2/blob/main/lecture3/pmpp.ipynb

🏎️面向所有Python背景的人的CUDA入门!

@jeremyphoward 首先在Python中构建内核(使用blockIdx和threadIdx) -> 然后将它们转换为CUDA C。

如何从头开始构建大型语言模型

在这里插入图片描述
在如何从头开始构建大型语言模型的书中,读者将了解如何从内到外 构建 LLMs 的工作。作者将指导用户逐步创建自己的LLM阶段,用清晰的文本、图表和示例解释每个阶段。GitHub 中作者公开啦相关代码,同时也可以进行学习,感兴趣细节的朋友们可以读一读。

The Future of Prosumer: The Rise of “AI Native” Workflows

文章概述了基于人工智能原生工作流的未来展望。在这一领域,人工智能为创始人提供了完全重塑工作流程的机会,预示着全新一代完全基于人工智能的公司的诞生。这些公司将以现有技术为起点,围绕人工智能独特的生成、编辑和组合能力构建新产品。文章强调,人工智能原生平台将提升用户与软件的交互方式,使用户能够将低技能任务委托给人工智能助手,专注于更高层次的思考。同时,人工智能还将帮助用户解锁全新的技术和审美技能,缩小创造力与技艺之间的差距,让每个人都能成为新一代的“专业用户”。

2023年大语言模型融合技术调研与实践指南

本文探讨了大语言模型融合技术,介绍了五种融合算法:任务向量模型编辑(EMTA)、球面线性插值(SLERP)、修整选举合并(TIES)、剪枝缩放(DARE)和直通(Passthrough)。这些技术允许在不重新训练或使用GPU的情况下,通过合并不同模型的参数来增强模型能力。文章通过mergekit工具包展示了如何实现这些算法,并提供了配置示例。特别提到了使用SLERP方法创建的Marcoro14-7B-slerp模型,在Open LLM排行榜上表现优异。这些方法为未来语言模型的能力模块化组装提供了新途径。

PAI-ChatLearn :灵活易用、大规模 RLHF 高效训练框架(阿里云最新实践)

PAI-ChatLearn 是阿里云PAI团队开发的大规模RLHF(基于人类反馈的强化学习)训练框架,专为大模型设计,支持SFT(有监督指令微调)、RM(奖励模型)和RLHF全流程训练。该框架采用灵活的并行策略,包括数据并行、模型并行和任务并行,以适应不同规模的模型训练需求。PAI-ChatLearn 提供了高效的参数同步机制和环境隔离,支持不同后端的推理和训练,简化了模型封装和开发流程。在实际应用中,PAI-ChatLearn 已成功支持175B+175B规模的模型训练,并在性能上优于业界框架,有助于用户专注于模型效果的优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1419887.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【STM32F103单片机】利用ST-LINK V2烧录程序 面包板的使用

1、ST‐LINK V2安装 参考: http://t.csdnimg.cn/Ulhhq 成功: 2、烧录器接线 背后有标识的引脚对应: 3、烧录成功 烧录成功后,按下核心板的RESET键复位!!!即可成功! 4、面包板的…

如何改变音频的频率教程

这是一篇教你如何通过一些工具改变音频频率的教学文章。全程所用的软件都是免费的。 本文用到的软件: AIX智能下载器 用于抓取任何视频网站资源的插件 格式工厂 将mp4转化为mp3 Audacity 改变音频频率的软件 如果你已备好mp3或其他格式的音频,那么直接看…

AI工具【OCR 01】Java可使用的OCR工具Tess4J使用举例(身份证信息识别核心代码及信息提前方法分享)

Java可使用的OCR工具Tess4J使用举例 1.简介1.1 简单介绍1.2 官方说明 2.使用举例2.1 依赖及语言数据包2.2 核心代码2.3 识别身份证信息2.3.1 核心代码2.3.2 截取指定字符2.3.3 去掉字符串里的非中文字符2.3.4 提取出生日期(待优化)2.3.5 实测 3.总结 1.简…

谷歌人工智能视频生成器-LUMIERE(未开源)

Google重磅发布视频生成模型Lumiere 据说后续会开源 亮点1.支持文本到视频与图像到视频 亮点2.画风迁移 亮点3.运动蒙版 亮点4.视频编辑 亮点5.视频修复 谷歌视频模型可以生成80帧的片段!不仅画质好、质量高,而且时长更长。 视频局部编辑 这项功能可以…

Python进阶(4) | 创建Python库的模板工程 Python-lib-starter

Python进阶(4) | 创建Python库的模板工程 Python-lib-starter 文章目录 Python进阶(4) | 创建Python库的模板工程 Python-lib-starter1. 目的2. Python-lib-starter 目录结构浅析2.1 关键目录和文件2.2 非关键目录和文件 3. moelib 目录分析3.1 __init__.py延迟评估类型注解的意…

flink cdc,standalone模式下,任务运行一段时间taskmanager挂掉

在使用flink cdc,配置任务运行,过了几天后,任务无故取消,超时,导致taskmanager挂掉,相关异常如下: 异常1: did not react to cancelling signal interrupting; it is stuck for 30 s…

最新详细eclipse下载、安装、汉化教程

一、下载eclipse安装包 首先进入 eclipse官网 如下: 这里面有很多版本;我们小白一般选择第二个,向下滑动; 点击符合自己系统的版本。 这里我们切换镜像下载,一般选择离你最近的地址下载。 我建议选择大连东软信息学…

Python 数据分析实战——社交游戏的用户流失?酒卷隆治_案例2

# 什么样的顾客会选择离开 # 数据集 DAU : 每天至少来访问一次的用户数据 数据内容 数据类型 字段名 访问时间 string(字符串) log_data 应用名称 string(字符串) app_name 用户 ID int(数值) user_id…

项目经理,如何管理好自己的情绪?

在现代社会中,压力无处不在。对于项目经理来说,压力更是来自各个方面,如项目进度、团队管理、客户需求等。当压力过大时,情绪就容易受到影响,如果无法控制自己的情绪,不仅会影响自己的工作效率,…

uniapp对接微信APP支付返回requestPayment:fail [payment微信:-1]General errors错误-全网总结详解

一、问题描述 uniapp对接微信APP支付,本来是很简单的一件事,后端本来就是好的,只要填一些参数就行了,搞了我一晚上,主要卡在uniapp这边,拉起支付的时候,一直提示以下错误: {"er…

Celery基础用法

Celery概述 Celery是一个分布式任务调度模块,用于在Python中处理异步任务。它允许你创建任务,并发送给工作节点执行。 Celery常常用于我们说的脏活,累活,处理耗时的操作,如发送电子邮件、处理数据、执行计算等。 上手非…

pytorch安装教程(Anaconda + GPU)

可以去nvidia官网更新驱动 获取下载pytorch的命令地址:Start Locally | PyTorch 在这里可以找到旧版本的cuda的命令:Previous PyTorch Versions | PyTorch 如果使用conda没有安装成功的话,就使用pip:

pytorch 实现中文文本分类

🍨 本文为[🔗365天深度学习训练营学习记录博客🍦 参考文章:365天深度学习训练营🍖 原作者:[K同学啊 | 接辅导、项目定制]\n🚀 文章来源:[K同学的学习圈子](https://www.yuque.com/mi…

故障诊断 | 一文解决,CNN卷积神经网络故障诊断(Matlab)

文章目录 效果一览文章概述专栏介绍源码设计参考资料效果一览 文章概述 故障诊断 | 一文解决,CNN卷积神经网络故障诊断(Matlab) 专栏介绍 订阅【故障诊断】专栏,不定期更新机器学习和深度学习在故障诊断中的应用;订阅

自然语言nlp学习 三

4-8 Prompt-Learning--应用_哔哩哔哩_bilibili Prompt Learning(提示学习)是近年来在自然语言处理领域中,特别是在预训练-微调范式下的一个热门研究方向。它主要与大规模预训练模型如GPT系列、BERT等的应用密切相关。 在传统的微调过程中&a…

【C++】Vulkan:计算机图形学Vulkan基础与环境配置

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍计算机图形学Vulkan基础与环境配置。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下&a…

pve web无法访问

一、问题描述 我这边修改了网络,导致ip发生了变更,pve网页版直接登不上了,ssh又可以登录。 二、解决方法 首先确认是不是网络的问题,我这边是内网,有多个路由器,笔记本连的是一个网段,pve又是一个网段,通过ping&…

Unity打包Android,jar文件无法解析的问题

Unity打包Android,jar无法解析的问题 介绍解决方案总结 介绍 最近在接入语音的SDK时,发现的这个问题. 当我默认导入这个插件的时候,插件内部的文件夹(我下面话红框的文件夹)名字原本为GCloudVoice,这时候我…

Spring Boot导出EXCEL 文件

主要功能:实现java导出excel到本地 JDK版本&#xff1a;openJDK 20.0.1 依赖pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchem…

Java / Spring Boot + POI 给 Word 添加水印

1、前言(瞎扯) 有个需求&#xff1a;整一个给 Word 加水印的demo&#xff0c;于是我就网上找呗~ 看到那个 Aspose 好像是收费的&#xff0c;然后就把目光转向了 POI&#xff0c;看到各种形形色色的也不知道哪个能用。整了一会&#xff0c;自己拷贝出一个比较精简的能用的 demo …