哈工大开源“活字”对话大模型

news2024/12/23 5:33:08

一、介绍

大规模语言模型(LLM)在自然语言处理的通用领域已取得了令人瞩目的成功。对于广泛的应用场景,这种技术展示了强大的潜力,学术界和工业界的兴趣也持续升温。哈工大自然语言处理研究所30余位老师和学生参与开发了通用对话大模型活字1.0,哈工大社会计算与信息检索研究中心(哈工大-SCIR)研发了活字2.0,致力于为自然语言处理的研究和实际应用提供更多可能性和选择。

图片

局限性: 由于模型参数量较小和自回归生成范式,活字仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用生成的内容,请勿将生成的有害内容传播至互联网。若产生不良后果,由传播者自负。

二、模型特色

活字1.0

  • 活字1.0 由哈工大自然语言处理研究所30余位老师和学生研发

  • 在BLOOM-7B基础上,通过指令微调后,获得更加通用的完成任务的能力

    • 支持中英双语:在标准的中/英文基准与主观测评上均取得优异的效果,同时支持多语言对话能力

    • 更丰富的指令微调数据:人工构造了更多指令微调模板,以及一些列的Self-instruction指令构造的SFT数据,使得指令微调的数据更加丰富

      • 取得更好的指令遵循能力

      • 支持生成代码以及表格

    • 更高质量的安全数据:基于多轮对抗攻击,以SFT形式手动设计安全数据,强化模型回复的安全性和合规性

      • 安全性指标达到 84.4%,在特定测试集上超越了ChatGPT

活字2.0

  • 活字2.0由哈工大社会计算与信息检索研究中心(SCIR)完成研发

  • 在活字1.0基础上,通过人类反馈的强化学习 (RLHF)进一步优化了模型回复质量,使其更加符合人类偏好

    • 融合多种trick的稳定PPO训练:训练更加稳定高效

      • 训练过程中保持数据分布一致

      • 在奖励函数中加入KL-散度罚值

      • Actor权重滑动平均

    • 多维度标注的中文偏好数据:回答更丰富,遵从指令的能力更强,逻辑更加清晰

      • 针对Instruction标注是否具有诱导性

      • 针对每条回复从有用性、真实性和无害性三个维度打分

      • 综合考虑Instruction类别、回复质量的偏好排序

图片

为了更好地推动中文大模型的技术进展,哈工大赛尔实验室对“活字1.0”和“活字2.0”两个版本的大语言模型进行了开源GitHub地址为 https://github.com/HIT-SCIR/huozi,也可点击“阅读全文”进入。

同时,我们开源个用于训练RLHF奖励模型的人工标注中文数据集

欢迎广大研究人员、开发者和技术爱好者尝试使用,并提供宝贵的反馈和建议。

三、模型评测

公开benchmark榜单

  • C-Eval 数据集:是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源,在 val 集上进行了 5-shot 测试。

  • Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 zero-shot 测试。

  • MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。我们采用了 开源 的评测方案,最终 5-shot

ModelC-EvalMMLUGAOKAO(理科)GAOKAO(文科)
GPT-468.386.4--
ChatGPT50.067.3364398
LLAMA-7B-27.8--
Chinese-Llama-7B6.531.4105126
Chinese-Falcon-7B24.521.0113121
BLOOM-7B22.425.5114127
BLOOMZ-7B-28.7--
活字1.021.735.6120138

人工综合评测

我们自己构建了一套综合的双语测试数据集(共计525条),对模型生成的流畅性、相关性、真实性等指标进行人工综合评价。

                                   综合质量(%)流畅性(%)相关性(%)真实性(%)指令遵循(%)安全性(%)
活字1.070.494.691.585.581.184.4
ChatGPT86.598.898.192.986.881.9
  • 综合质量:人工评估模型生成文本的综合质量。

  • 流畅性:语言模型是否能生成流畅的回复

  • 相关性:语言模型生成的回复是否与问题相关(无论正确与否)

  • 真实性:模型生成结果是否无明显错误信息,是否产生误导性的信息,或真实性存疑的信息。

  • 指令遵循:是否能够准确地满足人类指定的需求。

  • 安全性:诱导模型生成有害回复,测试模型生成安全无害回复的比例。

、交互样例

  • 诗歌创作

    图片

  • 文案写作

    图片

  • 数学应用题

    图片

  • 代码生成

    图片

    图片

  • 多语言

    图片

  • 知识问答

    图片

  • 表格能力

    图片

  • 安全无害性

    图片

五、《ChatGPT 调研报告》

哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告,从技术原理、应用场景、未来发展等方面对ChatGPT进行了尽量详尽的介绍及总结,该报告PDF文件已上传至Github。

、结语

“活字”大语言模型的推出是哈工大自然语言处理研究所在自然语言处理领域的最新努力。该项目的开源性质鼓励了更广泛的参与和尝试,有助于推动自然语言处理技术的研究和应用。但是由于模型参数和自回归生成范式,活字仍然可能生成有害内容,请谨慎鉴别和使用生成的内容,请勿将生成的有害内容传播至互联网。最后,诚邀您访问我们的GitHub项目页面,体验活字大语言模型,并共同探讨中文自然语言处理的未来发展。

本期责任编辑:张伟男

本期编辑:杨   昕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/879993.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【BUG】docker安装nacos,浏览器却无法访问到页面

个人主页:金鳞踏雨 个人简介:大家好,我是金鳞,一个初出茅庐的Java小白 目前状况:22届普通本科毕业生,几经波折了,现在任职于一家国内大型知名日化公司,从事Java开发工作 我的博客&am…

单链表相关操作(插入,删除,查找)

通过上一节我们知道顺序表的优点: 可随机存储(O(1)):查找速度快 存储密度高:每个结点只存放数据元素,而单链表除了存放数据元素之外,还需存储指向下一个节点的指针 http://t.csdn.cn/p7OQf …

计算机组成原理之浮点运算

1、浮点运算步骤 ①0操作数的检查,看有无简化操作的可能。 ②比较阶码大小并完成对阶(小阶向大阶对齐)。 ③尾数进行加或减运算。 (在进行尾数加减前,浮点运算器会自动把原码形式的尾数转换成补码形式。) ④…

像素相关知识

物理像素 指的是物理设备上真实的小方块个数,就是拿放大镜看屏幕时看到的像素点, 每个物理像素具体的大小是不固定的,不同设备不相同,由厂家设置 逻辑像素 指的就是我们css用到的px这个单位的像素 像素比(DPR&…

GB/GMP法规内容对沉降​菌、浮游菌监测​点设置相关规定及要求详解

微生物鉴定一直是生物、食品、医药等领域非常重要的监控指标,可以帮助预测药品生产过程以及无菌生产环境的风险。对于许多企业而言,建立厂房环境微生物菌种库对于微生物污染控制来说非常关键,环境菌种库的建立可以帮助制定洁净区消毒灭菌程序…

Leetcode40 组合之和2

给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意:解集不能包含重复的组合。 解题思路:回溯剪枝 代码&#xff…

LeetCode--HOT100题(31)

目录 题目描述:25. K 个一组翻转链表(困难)题目接口解题思路代码 PS: 题目描述:25. K 个一组翻转链表(困难) 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表…

麦肯锡重磅发布2023年15项技术趋势,生成式AI首次入选,选对了就是风口

两位朋友在不同群里分享了同一份深度报告。 一位是LH美女,她在“AIGC时代”群里上传了这份文档,响应寥寥,可能是因为这些报告没有像八卦文那样容易带来冲击。 你看韩彬的这篇《金融妲己:基金公司女销售的瓜,一个比一个…

Ingress企业实战:金丝雀与蓝绿发布篇

背景 现如今,越来越多的应用采用了微服务架构,这也导致了应用数量相比传统模式更多,管理更加复杂,发布更加频繁,如果直接将新版本上线发布给全部用户。一旦遇到线上事故(或BUG),对用…

哪些客户适合打Cold Call?

都知道Cold Call是外贸营销中一种重要的销售方式,相比邮件跟进,它可以可实时交流,获取需求,解决问题,展示人情味,提升好感度,提高转化率。但由于陌生性,当下如果没有需求的话&#x…

“万恶”之源的KieServices,获取代码就一行,表面代码越少里面东西就越多,本以为就是个简单的工厂方法,没想到里面弯弯绕绕这么多东西

Drools用户手册看了得有一段时间了,现在开始看源码了,因为每次使用drools都会看见这么一段代码: 代码段1 起手代码 KieServices ks KieServices.Factory.get(); 那我就从这段代码出发开始研究drools的源码吧,这么一小段代码起初…

文件操作/IO

文件 文件是一种在硬盘上存储数据的方式,操作系统帮我们把硬盘的一些细节都封装起来了,程序员只需要了解文件相关的接口即可,相当于操作文件就是间接的操作硬盘了 硬盘用来存储数据,和内存相比硬盘的存储空间更大,访问…

代码运行出现:No module named ‘torch_geometric‘

这是没有torch_geometric库导致的,但是不能像一般库安装‘pip install 库名’或者‘conda install 库名’进行安装,经常会报错!!! 需要先安装四个小部件再安装torch_geometric,具体安装步骤如下: step 1:查看自己环境…

简约时尚的健康手表,智能守护每一刻,dido Y60上手

智能手表是现在很流行的一种智能设备,很多品牌都推出了各种各样的产品,但是大部分都更侧重功能和运动的方面,健康监测往往只是配角,而随着人们对自己的健康越来越重视,有些朋友只是单纯的需要一块专业的健康监测手表。…

SIFT 算法 | 如何在 Python 中使用 SIFT 进行图像匹配

介绍 人类通过记忆和理解来识别物体、人和图像。你看到某件事的次数越多,你就越容易记住它。此外,每当一个图像在你的脑海中弹出时,它就会将该项目或图像与一堆相关的图像或事物联系起来。如果我告诉你我们可以使用一种称为 SIFT 算法的技术来教机器做同样的事情呢? 尽管…

部署私有知识库项目FastGPT

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景。 项目源码: GitHub - c121914yu/FastGPT: A platform that uses the Open…

【推荐】7个可以改变我们在3dMax中工作方式的插件

​以下给大家介绍的这些插件,将改变我们在3d Max中的工作方式,让生活更加轻松。 Glue Utility(粘合实用程序) 这些年来,这个工具改变了我的游戏规则。它使我能够执行许多任务,否则这些任务要么是不可能…

在矩池云使用 ChatGLM2-6B ptuning

本文参考 ChatGLM2-6B 官方文档,在矩池云复现了对于 ChatGLM2-6B 模型基于 P-Tuning v2 的微调。P-Tuning v2 将需要微调的参数量减少到原来的 0.1%,再通过模型量化、Gradient Checkpoint 等方法,最低只需要 7GB 显存即可运行。 官方文档地址…

一百五十六、Kettle——Linux上安装的Kettle9.3连接ClickHouse数据库(亲测,附流程截图)

一、目标 kettle9.3在Linux上安装好后,需要与ClickHouse数据库建立连接 二、前提准备 (一)在Linux已经安装好kettle并可以启动kettle (二)已知kettle和ClickHouse版本 1、kettle版本是9.3 2、ClickHouse版本是21…

深度学习优化器

1、什么是优化器 优化器用来寻找模型的最优解。 2、常见优化器 2.1. 批量梯度下降法BGD(Batch Gradient Descent) 2.1.1、BGD表示 BGD 采用整个训练集的数据来计算 cost function 对参数的梯度: 假设要学习训练的模型参数为W,代价函数为J(W),…