现在 AI 行业什么最火?
「大模型」一定仍然排在前三甲的位置。
自从 2022 年底 ChatGPT 面世以来,大模型在各行各业已经带来了太多的惊喜,应用场景愈发丰富,同时也带动了相关底层技术的普及与普适化。尤其是在开源模型繁荣发展之下,无论是从兴趣出发的开发者,亦或是有资金支持的企业,都能够「站在巨人的肩膀上」,打磨更加优质的模型。
然而,随着越来越多的开源大模型涌入市场,如何挑选优质、合适的大模型和数据集,以及如何使用大模型,成为了开发者和 AI 爱好者的难题,为了方便大家使用和下载,HyperAI超神经为大家汇总了优质大模型相关资源:
* 优质开源模型:20 个
* 优质教程精选:10 个
* 优质公共数据集:20 个
获取更多大模型资源,请访问官网:hyper.ai
大模型精选
1. Llama 3 系列
Llama 3 是 Meta 公司的开源 Llama 系列的最新版本,该模型采用了新的 Tokenizer,将词汇表大小扩展至 128,256。
* Llama 3-8B-Instruct
该模型为 Llama 3 8B 基础模型的指令调优版,可以用于在消费级 GPU 上高效部署和开发。模型的上下文长度为 8k,预训练数据的截止日期为 2023 年 3 月。
直接使用:https://go.hyper.ai/pKyMI
* Llama 3-70B
该模型为 Meta 新一代开源大模型 Llama 3 的 70B 参数规模模型,适用于大规模 AI 原生应用程序。模型的上下文长度为 8k,预训练数据的截止日期为 2023 年 12 月。
直接使用:https://go.hyper.ai/XII1S
2. OpenELM-3B-Instruct
OpenELM 是苹果研究团队推出的一种先进的开源语言模型,该模型为 OpenELM 3B 规模大小的指令调整模型。
直接使用:https://go.hyper.ai/Jx3Xs
3. C4AI Command-R
C4AI Command-R 是由 Cohere 和 Cohere For AI 联合开发的一个 350 亿参数的高性能生成式模型。多语言生成能力和高性能 RAG 能力的结合,使 Command-R 在跨语言任务和知识密集型任务上具有独特优势。
直接使用:https://go.hyper.ai/Q6kAf
4. InternLM 2-Chat-20B
InternLM2 是书生·浦语 2.0 系列的 20B 规模大小的聊天模型,它的综合性能更为强劲,可以有效支持更加复杂的实用场景。
直接使用:https://go.hyper.ai/pD2rN
5. 金融大模型 deepmoney-34B-chat
该模型是基于 Yi-34B-200K 训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。
直接使用:https://go.hyper.ai/7BO4O
6. Mixtral-8x7B
该模型是 Mistral AI 在 Mistral 7B 的基础上推出的大语言模型,采用了多专家 (MoE) 架构,由 8 个独立的专家模型组成,每个专家模型都是一个 Mistral 7B 模型。
直接使用:https://go.hyper.ai/jWfMl
7. FuseChat-7B-VaRM
FuseAI 提出了一个扩展的 FuseLLM 框架,将多个结构和尺度不同的聊天 LLM 的集体知识和个人优势融合为一个更强大的聊天 LLM,即 FuseChat。
直接使用:https://go.hyper.ai/EWGvY
8. ChatGLM 3 系列
ChatGLM 3 是智谱AI 和清华大学 KEG 实验室联合发布的对话预训练模型。
* ChatGLM 3-6B
该模型为 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性
直接使用:https://go.hyper.ai/0AcHz
* ChatGLM 3-6B-Base
该模型是 ChatGLM3-6B 的基础模型,采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。
直接使用:https://go.hyper.ai/SaNvM
9. LLaVA-v1.5 系列
LLaVA (Large Language-and-Vision Assistant) 是一个能够进行视觉和语言多模态转换的模型,由视觉编码器和大型语言模型 (Vicuna v1.5 13B) 组成。
* LLaVA-v1.5-7B
该模型是 LLaVA-v1.5 系列的 70 亿参数规模的模型。
直接使用:https://go.hyper.ai/Ha2Y9
* LLaVA-v1.5-13B
该模型是 LLaVA-v1.5 系列的 130 亿参数规模的模型。
直接使用:https://go.hyper.ai/ubBDL
10. Yi-34B 系列
Yi 系列模型是 01.AI 从零开始训练的下一代开源大语言模型。该系列为其 34B 大小的型号模型。
* Yi-34B-Chat
该模型为 Yi-34B 系列是 Chat 模型,适用于多种对话场景。
直接使用:https://go.hyper.ai/i74NJ
* Yi-34B-Chat-GGUF
该模型是 Yi-34B-Chat 的 GGUF 格式。
直接使用:https://go.hyper.ai/e3Vdl
* Yi-34B-Chat-4bits
该模型是 Yi-34B-Chat 模型的 4bit 量化版,可以直接在消费级显卡(如 RTX3090)上使用。
直接使用:https://go.hyper.ai/UagO0
11. Qwen 通义千问大模型系列
Qwen 是阿里云推出的一系列超大规模语言模型,包括参数数量各不相同的不同模型。它包括 Qwen(基础预训练语言模型)和 Qwen-Chat(聊天模型),聊天模型采用人类对齐技术进行了微调。
* Qwen 1.5-1.8B-Chat
Qwen 1.5 是 Qwen 2 的 beta 版本,该模型是 Qwen 2 系列中较小参数规模的聊天模型版本,参数大小为 18 亿。
直接使用:https://go.hyper.ai/fFzxL
* Qwen-14B-Chat-Int4
Qwen-14B-Chat 是通义千问大模型系列的 140 亿参数规模的聊天模型,该模型为其 Int4 量化模型。
直接使用:https://go.hyper.ai/LHdxk
* Qwen-72B-Chat
该模型是是通义千问大模型系列的 720 亿参数规模的聊天模型。
直接使用:https://go.hyper.ai/7250m
* Qwen-72B-Chat-Int4
该模型为 Qwen-72B-Chat 的 Int4 量化模型。
直接使用:https://go.hyper.ai/Rh4f3
* Qwen-72B-Chat-Int8
该模型为 Qwen-72B-Chat 的 Int8 量化模型。
直接使用:https://go.hyper.ai/n2tOo
优质教程精选
1. 使用 Ollama 和 Open WebUI 部署 Llama 3-8B-Instruct
该教程为 Ollama + Open WebUI 一键运行包,只需按步骤输入命令即可运行 Llama3-8B-Instruct。
在线运行:https://go.hyper.ai/1sero
2. 使用 Ollama 和 Open WebUI 部署 Llama 3-70B
该教程通过 Ollama 和 Open WebUI 工具一键运行模型,仅需按步骤输入命令即可运行 Llama3-70B。虽然模型参数较大,但经过平台部署后单卡 A6000 即可使用,仅占用 1.07 GB 存储。
在线运行:https://go.hyper.ai/kJl8Y
3. 一键运行 Qwen1.5-MoE
Qwen1.5-MoE-A2.7B 是通义千问团队推出 Qwen 系列的首个 MoE 模型,该教程为其 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。
在线运行:https://go.hyper.ai/ldW1h
4. 一键运行 Yi-9B Demo
Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,该教程为 Yi-9B 的 Demo 容器。
在线运行:https://go.hyper.ai/fopo0
5. 在线运行 Yi-34B-Chat 的量化模型
本教程主要演示了使用 LlamaEdge 运行 Yi-34B-Chat 的量化模型的主要流程,Yi-34B-Chat 是零一万物在 Yi-34B 预训练模型的基础上推出的微调模型。
在线运行:https://go.hyper.ai/osUvl
6. 在线运行金融大模型 deepmoney-34B-full
Deepmoney 是一个专注于金融领域投资的大型语言模型项目。Deepmoney-34B-full 是基于 01-ai 开源的 Yi-34B-200K 模型进行训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。现可在超神经官网一键克隆使用。
在线运行:https://go.hyper.ai/lFXHY
7. Qwen-14B-Chat-Int4 模型 Gradio Demo
该教程为 Qwen-14B-Chat-Int4 的 Demo 容器,Qwen-14B-Chat 是阿里云发布的一个基于大模型的 AI 助手。该教程使用的模型是 Qwen-14B-Chat 的 Int4 量化模型。
在线运行:https://go.hyper.ai/x7qnN
8. Qwen-1.8B-Chat-API-FT 模型 Demo
本教程主要演示了如何运行通义千问 Qwen-1.8B-Chat 模型并进行微调的主要流程。Qwen-1.8B 是阿里云研发的通义千问大模型系列的 18 亿参数规模的模型。
在线运行:https://go.hyper.ai/ZSJGR
9. Qwen-72B-Chat-Int4 模型 Gradio Demo
该教程为 Qwen-72B-Chat-Int4 的 Demo 容器,该模型是一个量化模型,其权重和激活函数被量化为4位整数 (INT4)。
在线运行:https://go.hyper.ai/r2gfP
10. 快速部署 ChatGLM 2-6B
该教程为 ChatGLM2-6B 的 Demo 容器,ChatGLM2-6B 是开源中英双语对话模型ChatGLM-6B 的第二代版本,保留了初代模型对话流畅、部署门槛较低等众多优秀特性。
在线运行:https://go.hyper.ai/GVs8s
数据集
1. COIG-CQIA 高质量中文指令微调数据集
COIG-CQIA 全称为 Chinese Open Instruction Generalist – Quality is All You Need,是一个开源的高质量指令微调数据集,旨在为中文 NLP 社区提供高质量且符合人类交互行为的指令微调数据。
直接使用:https://go.hyper.ai/Pg37L
2. HalluQA 中文大模型幻觉评估数据集
HalluQA 数据集包含 450 个对抗性问题,跨越多个领域,并涉及到中国历史文化、习俗和社会现象。
直接使用:https://go.hyper.ai/pWyqe
3. Pinocchio 匹诺曹事实知识评估数据集
Pinocchio 数据集是由清华大学、伊利诺伊大学芝加哥分校和剑桥大学的研究人员联合创建的,其目的在于全方位评测大型语言模型 (LLMs) 在事实知识存储以及推理能力上的表现。
直接使用:https://go.hyper.ai/yggNY
4. FineFake 细粒度多领域假新闻检测数据集
FineFake 是一个专门用于细粒度多领域假新闻检测的数据集,由北京航空航天大学和北京邮电大学联合创建。该数据集共有 16,909 个数据样本,覆盖了 6 个语义主题和 8 个不同的平台。
直接使用:https://go.hyper.ai/CNWIn
5. TriviaQA 用于阅读理解和问答的大型数据集
TriviaQA 是一个阅读理解数据集,包含超过 65 万个问答证据三元组。TriviaQA 包括来自维基百科和网络的 662K 文档中的 95K 问答对。
直接使用:https://go.hyper.ai/aant8
6. PD&CFT 人民日报中文阅读理解数据集
该数据集是第一个中文阅读理解数据集,其中包括人民日报和儿童童话(People Daily&Children’s Fairy Tale,简称 PD&CFT)。
直接使用:https://go.hyper.ai/yO9N5
7. 今日头条中文文本分类数据集
该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本。
直接使用:https://go.hyper.ai/f7Bu8
8. FewJoint 基准数据集
该数据集来自讯飞 AIUI 开放平台上真实用户语料和专家构造的语料(比例大概为 3:7),包含 59 个真实域,目前域最多的对话数据集之一。
直接使用:https://go.hyper.ai/gSwPM
9. PAWS-X :用于释义识别的跨语言对抗数据集
该数据集包含 23,659 个人工翻译的 PAWS 评估对和 296,406 个机器翻译的训练对,采用六种类型不同的语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对均源自 PAWS-Wiki 中的示例。
直接使用:https://go.hyper.ai/iGq5u
10. Wikipedia 维基百科数据集
该数据集是根据 Wikipedia 转储构建的,包含 56 种语言,每种语言有一个子集,每个子集包含一个训练分割。每个示例都包含一篇完整的维基百科文章的内容,并经过清理以去除降价和不需要的部分(参考文献等)。
直接使用:https://go.hyper.ai/WTcXF
11. RJUA-QA 首个中文医疗专科问答推理数据集
RJUA-QA 数据集共含 2,132 个问答对,每对问答由医生根据临床经验编写的问题、专家提供的回答以及相关的推理上下文构成,这些上下文信息源自中国泌尿外科和男科疾病诊断治疗指南。
直接使用:https://go.hyper.ai/1zAiG
12. ShareGPT 90k 中英文双语人机问答数据集
ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。可用于训练高质量的对话模型。
直接使用:https://go.hyper.ai/fhmFF
13. SMP-2017 中文对话意图识别数据集
该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。
直接使用:https://go.hyper.ai/pBjME
14. Chinese-Poetry 中文古典诗歌文集数据库
该数据集是最全的中华古典文集数据库,包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。
直接使用:https://go.hyper.ai/JKxW5
15. MCFEND 中国假新闻检测的多源基准数据集
该数据集是由香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。
直接使用:https://go.hyper.ai/WKwhh
16. seq-monkey 序列猴子开源数据集 1.0
序列猴子数据集是用于训练序列猴子模型的数据集合,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。
直接使用:https://go.hyper.ai/6k2Bz
17. IEPile 大规模信息抽取语料库
IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了通用、医学、金融等多个领域。
直接使用:https://go.hyper.ai/2wRp6
18. LongAlign 10K 大模型长上下文对齐数据集
LongAlign-10k 是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。
直接使用:https://go.hyper.ai/fXZ85
19. 大众点评数据集
该数据集包含 54 万用户对 24 万家餐馆的440 万条评论或评分数据。可用于推荐系统、情感/观点/评论倾向性分析等任务。
直接使用:https://go.hyper.ai/5UiXF
20. 亚马逊用户评价数据集
该数据集包含 142 万用户对亚马逊上 1,100 多个类目 52 万件商品的 720 万条评论或评分数据,可用于推荐系统、情感/观点/评论倾向性分析等任务。
直接使用:https://go.hyper.ai/SIJXO
更多公共数据集,请访问:
https://hyper.ai/datasets
以上就是大模型编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1200+ 公开数据集提供国内加速下载节点
* 收录 300+ 经典及流行在线教程
* 解读 100+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/
往期推荐
戳“阅读原文”,免费获取海量数据集资源!