开箱即用的ChatGPT替代模型,还可训练自己数据

news2024/11/17 21:26:57

一、普遍关注是什么?

OpenAI 是第一个在该领域取得重大进展的公司,并且使围绕其服务构建抽象变得更加容易。然而,便利性带来了集中化、通过中介的成本、数据隐私和版权问题。

而数据主权和治理是这些新的LLM服务提供商如何处理商业秘密或敏感信息的首要问题,用户数据已被用于预训练以增强LLM模型能力。越来越多的人担心,大公司可能会为了既得利益而垄断此类模型,而这可能不符合你的最佳利益。

当 ChatGPT 最初推出时,这个问题是核心的中心讨论问题之一,并且仍然是。此外,对事实准确性、偏见、冒犯性反应和迷惑性的担忧,有时会困扰 ChatGPT,尽管这在版本 4 中已被最小化。虽然有问题,我相信利大于弊。

我们不能忽视 ChatGPT,LLM 之所以成为今天的样子,是因为像你我这样的用户间接提供了在各种论坛和渠道上共享的所有数据的集体智慧。

二、为什么要建立自己的模型?

我们可以将原因归结为完全的所有权和控制权。 鉴于此类语言模型的影响,必须很好地理解这些模型的构建方式、它们的功能以及如何改进它们。对于集中式服务,很难获取信息,但我们可以研究开源解决方案,了解它们是如何做到的。

熟悉可用的选项总是好的。下面的列表可以作为一个起点,看看它们是否是构建类似对话式聊天机器人(如 ChatGPT)的替代更便宜的方法。

三、开箱即用的模型,免费!

下面的一些模型可以在你的笔记本电脑上运行;你还可以选择通过 Google Colab 运行其中一些,它带有 51 GB RAM 选项。一般来说,如果目标不是与许多人的想法相反,那么训练开源模型的成本相对较低。

3.1 OpenChatKit

OpenChatKit使用经过 4300 万条指令训练的 200 亿参数聊天模型,支持推理、多轮对话、知识和生成答案。OpenChatkit 专为对话和指令而设计。通常,机器人擅长汇总和生成表格、分类和对话。

OpenChatKit 0.15 版是在 Apache-2.0 许可下发布的,该许可授予您对源代码、模型权重和训练数据集的完全访问权限,因为该计划是由社区驱动的。

OpenChatKit 开箱即用的一项值得注意的功能是用于实时更新答案的检索系统,允许聊天机器人将更新或定制的内容(例如来自维基百科、新闻提要或体育比分的信息)集成到其响应中。访问互联网是最近通过插件集成到 ChatGPT-4 中的一项功能,但它可以在旧的 GPT 模型上轻松完成。

体验地址:

https://huggingface.co/spaces/togethercomputer/OpenChatKit

我的评价:它虽然有类似GPT功能,能理解中文,但是回答全是英文。响应速度非常.
在这里插入图片描述

3.2 Vicuna

Vicuna 是一个开源聊天机器人,具有 13B 参数,通过微调 LLaMA 对从 ShareGPT.com 收集的用户对话数据进行训练,社区网站用户可以共享他们的 ChatGPT 对话。根据所做的评估,该模型具有超过 90% 的质量率,可与 OpenAI 的 ChatGPT 和谷歌的 Bard 相媲美,这使得该模型在与 ChatGPT 的功能对等方面成为顶级开源模型之一。它还能够编写在其他开源 LLM 聊天机器人中不太常见的代码,如下图所示。
在这里插入图片描述
根据公开信息,训练Vicuna-13B 的费用估计约为 300 美元。仓库地址:

https://github.com/lm-sys/FastChat

体验地址:

https://chat.lmsys.org/

在这里插入图片描述

3.3 Alpaca

Alpaca建立在 Meta 的 LLaMA 之上,其唯一目标是使 LLM 更便宜。基于斯坦福大学研究中心所做的先前研究和基准。羊驼模型可以低至 600 美元进行再训练,考虑到由此带来的好处,这很便宜。

它们也是另外两个羊驼变种模型Alpaca.cpp和Alpaca-LoRA。使用 cpp 变体,您可以使用具有 4GB 权重的 M2 Macbook Air 在笔记本电脑上本地运行类似 Fast ChatGPT 的模型,当今大多数笔记本电脑都应该能够处理。CPP 变体结合了 Facebook 的 LLaMA、Stanford Alpaca、alpaca-Lora 以及相应的权重。您可以在此处找到有关如何进行微调的数据。

体验地址:

https://huggingface.co/spaces/tloen/alpaca-lora

在这里插入图片描述

3.4 GPTall

GPT4all是一个社区驱动的项目,在大量精选的辅助交互书面文本集上进行训练,包括代码、故事、描述和多轮对话。该团队提供了数据集、模型权重、数据管理流程和训练代码来推广开源模型。还有一个量化的 4 位版本的模型可以在你的笔记本电脑上运行,因为所需的内存和计算能力更少.

仓库地址:

https://github.com/nomic-ai/gpt4all

体验地址(似乎不能用了,需要自己部署下):

https://huggingface.co/spaces/rishiraj/GPT4All

3.5 ChatRWKV

ChatRWKV是由 RWKV 驱动的开源聊天机器人,RWKV 是一种具有 Transformer 级 LLM 性能语言模型的 RNN。模型结果与 ChatGPT 的结果相当。该模型使用 RNN。模型的微调是使用 Stanford Alpaca 和其他数据集完成的。

仓库地址:

https://github.com/BlinkDL/ChatRWKV

体验地址:

https://huggingface.co/spaces/BlinkDL/ChatRWKV-gradio

在这里插入图片描述

3.6 BLOOM

BLOOM 是一个开源 LLMS,拥有超过 1760 亿个参数。相比之下,它与ChatGPT相当,能够处理46种语言和13种编程语言的任务。进入的障碍之一是它需要 350~ GB 的 RAM 才能运行。您可以在此处找到一个较轻的版本。

支持文字和图片!

BLOOM 的开发由 BigScience 协调,BigScience 是一个充满活力的开放研究合作组织,其使命是公开发布 LLM。可以通过GitHub 自述文件找到有关如何开始使用 Bloom 的更多详细信息。

仓库地址:

https://github.com/bigscience-workshop/bigscience/tree/master/train/tr11-176B-ml#readme

ipython:

https://github.com/aws/amazon-sagemaker-examples/blob/main/inference/nlp/realtime/llm/bloom_176b/djl_deepspeed_deploy.ipynb

体验地址:

https://huggingface.co/spaces/huggingface/bloom_demo

在这里插入图片描述

3.7 goppt4All

GPT4All Chat 是一个本地运行的人工智能聊天应用程序,由 GPT4All-J Apache 2 许可的聊天机器人提供支持。该模型在您的计算机 CPU 上运行,无需互联网连接即可工作,并且不会向外部服务器发送聊天数据(除非您选择使用您的聊天数据来改进未来的 GPT4All 模型)。它允许您与大型语言模型 (LLM) 进行通信,以获得有用的答案、见解和建议。GPT4All Chat 适用于 Windows、Linux 和 macOS。在您的本地计算机上运行,​​此模型不如那些 GPT 模型强大,可以通过将数据发送到功能强大的大型服务器来通过互联网与之聊天,并且不隶属于它们。

下载地址(我下载了一夜…)

https://gpt4all.io/index.html

仓库地址:

https://github.com/nomic-ai/gpt4all

总结

如果在上面的开源列表中注意到,有一个通用主题,LLM 模型的大多数变体要么源自 Meta AI 的 Llama 作为基础模型,要么源自 Bloom。如果有足够的文献可以帮助入门,那么创建自己的变体相对简单。

如果你想要自己训练,一定要预估好成本。我正在思考如何训练一个专业性的模型(虽然可能不会太好,但总想尽可能去尝试)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/451867.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue(数据绑定、el和data多种写法、理解MVVM、数据代理)

一、数据绑定 1. vue中有两种数据绑定(通过开发者工具进行查看) 1. 单项绑定(v-bind)数据只能从data流向页面 在输入框中中输入vue实例中的数据没有变化 2. 双向绑定(v-model)数据能从data流向页面&#x…

【Java 数据结构】二叉树的遍历 (递归和非递归实现)

🎉🎉🎉点进来你就是我的人了 博主主页:🙈🙈🙈戳一戳,欢迎大佬指点!人生格言:当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔🦾&am…

大数据分析查询_Impala介绍_对HDFS_Hbase直接查询_速度快_组成架构_执行原理---大数据之Impala工作笔记0001

官网的地址:Impala (apache.org)https://impala.apache.org/ https://impala.apache.org/ 官网的地址: 首先我们看一下什么是impala,可以看到Impala是cloudera公司,也就是做Hadoop付费版的公司, 提供的,基于Hive的,因为他跟hive共用元数据,meta,他可以提供对HDFS,Hbase的SQL…

好家伙,阿里新产Java性能优化(终极版),涵盖性能优化所有操作

上月公司来了一位大佬,入职不到一周就把公司现有项目的性能优化了一遍,直接给公司节省了一半的成本。 一问情况,才知道这位仁兄也是一路被虐过来的。去年年底被裁,本以为自己技术还行,看了一段时间面经,复…

dB 、dBSPL、dBFS、dBTP

本文整理自:https://corychu.medium.com/%E9%8C%84%E9%9F%B3%E7%AD%86%E8%A8%98-%E6%95%B8%E4%BD%8D%E9%9F%B3%E9%87%8F%E6%A8%99%E6%BA%96-dbfs-dbtp-lufs-c47ca4646b7f 概述:dBFS(相对于满刻度的分贝)是数字系统中振幅水平的测…

8. 优先队列

8. 优先队列 普通的队列是一种先进先出的数据结构,元素在队列尾追加,而从队列头删除。在某些情况下,我们可能需要找出队列中的最大值或者最小值,例如使用一个队列保存计算机的任务,一般情况下计算机的任务都是有优先级…

element select改成成tree树状下拉

<template><el-select class"jhx-formData-inputRow" ref"configSelect" v-model"orgName" filterable placeholder"请选择":filter-method"filterMethod" clear><el-option :label"orgValue.label&quo…

Redis7中的持久化技术RDB和AOF的详细解释说明

文章目录 前置知识持久化原理RDB持久化RDB优化配置项RDB文件格式RDB持久化过程RDB总结 AOF持久化AOF的工作流程AOF中的rewirte机制rewrite AOF文件格式查看AOF文件 AOF优化配置项 AOFRDB混用纯缓存模式对比和技术选型建议 前置知识 官网关于持久化的说明 Redis 是一个内存数据…

频域抽取FFT(DIF-FFT)的C语言实现

原理 此处以基2频域抽取FFT为例&#xff0c;讲述频域抽取FFT的原理。假设FFT的长度为 N 2 m N2^m N2m&#xff0c;我们将序列 x x x的FFT变换分为以下两个部分&#xff1a; X ( k ) ∑ n 0 N / 2 − 1 x ( n ) W N n k ∑ n N / 2 N − 1 x ( n ) W N n k X(k)\sum_{n0}…

SQL Server存储过程(数据库引擎)使用详解

存储过程&#xff08;数据库引擎&#xff09; 一、背景知识1.1、使用存储过程的好处1.2、存储过程的类型 二、创建存储过程三、修改存储过程四、删除存储过程五、执行存储过程5.1、建议5.2、使用 Transact-SQL执行存储过程 六、授予对存储过程的权限6.1、授予对存储过程的权限6…

院士联合指导+超强专家阵容+丰厚奖金机会,第十二届“麒麟杯”大赛报名正式开启!

当前&#xff0c;开放、协作、共享的开源模式已成为全球软件技术和产业创新的主导&#xff0c;也为信息技术国产自主化提供了强大助力。高校师生作为国产开源建设的主要技术群体之一&#xff0c;是国产开源未来发展的中坚力量。 2023年第十二届“麒麟杯”全国开源应用软件开发…

强制变成Android的形状,iPhone这波更新严重违背祖训

众所周知&#xff0c;苹果每年要开两次发布会。 秋季发布会的主角是新 iPhone &#xff0c;而6月的 WWDC 全球开发者大会则会以软件为主。 WWDC 2023 将于6月5日举行&#xff0c;iOS 17、macOS 14 及新版本 tvOS、WatchOS 都将发布。 同时新的混合现实设备所搭载的 xrOS 也有…

创建Windows 11恢复U盘的两种方法

我们在使用电脑的过程中&#xff0c;无法预知未来会出现什么问题。当您遇到一些严重的系统问题时&#xff0c;您可能需要从故障的计算机中恢复。不幸的是&#xff0c;对于大多数用户来说&#xff0c;这意味着从头开始&#xff0c;因为他们没有提前创建恢复媒体。 虽然Windows 1…

每日学术速递4.20

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model(CVPR 2023) 标题&#xff1a;化身长腿&#xff1a;使用扩散模型从稀疏跟踪…

知识蒸馏之自蒸馏【附代码】

知识蒸馏的核心思想就是将大模型的知识传给小模型。 这里的知识通常就是模型所学的数据分布。大模型特点一般是具有非常高的精度&#xff0c;但可能在速度上不行&#xff0c;或者是不易部署&#xff0c;小模型通常是易部署&#xff0c;速度快但精度不如大模型。 因此可以将大…

【程序员面试金典】面试题 02.07. 链表相交

【程序员面试金典】面试题 02.07. 链表相交 题目描述解题思路 题目描述 描述&#xff1a;给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交&#…

使用Storm proxies动态代理IP浅析影响在线代理IP质量的因素?

影响在线代理IP质量的因素有很多&#xff0c;主要包括以下几个方面&#xff1a; 服务器稳定性&#xff1a;在线代理IP的稳定性和可用性与其所在的服务器质量密切相关。如果服务器配置低、网络不稳定、带宽不足等因素&#xff0c;都可能导致在线代理IP的质量下降。IP地址的稳定性…

【LeetCode】剑指 Offer 66. 构建乘积数组 p312 -- Java Version

题目链接&#xff1a;https://leetcode.cn/problems/gou-jian-cheng-ji-shu-zu-lcof/ 1. 题目介绍&#xff08;66. 构建乘积数组&#xff09; 给定一个数组 A[0,1,…,n-1]&#xff0c;请构建一个数组 B[0,1,…,n-1]&#xff0c;其中 B[i] 的值是数组 A 中除了下标 i 以外的元素…

5.1.1树的定义,基本术语及性质

空树&#xff1a;结点数为0的树 除了根节点外&#xff0c;任何一个结点都有且仅有一个前驱。 子树也可看成一个新的树 所以树其实是一个递归结构 树形逻辑结构的应用 下面我们来看树的基本术语 1.节点之间的关系描述 F是你的兄弟结点&#xff0c;GHIJ就是你的堂兄弟结点。 还…

海信激光电视将亮相中国家电及消费电子博览会 科技定义家庭观影

4月27日至30日,中国家电及消费电子博览会(简称AWE)将在上海新国际博览中心举办。本届AWE强势回归,展馆规模扩大至14个,展示面积超过16万平方米,将吸引超过1200家国内外企业参展,参观人次预计将突破40万。 作为亚洲规模最大的国际家电及消费电子展览会,本届AWE以“智科技,创未来…