华为参战!国产之光盘古大模型推:盘古Chat

news2025/2/4 0:58:03

盘古Chat是华为基于盘古大模型开发的一款多模态千亿级大模型产品,可以支持多种自然语言理解和生成的任务,如文本生成、问答、翻译、对话等。它是直接对标目前比较火爆的ChatGPT的产品,被认为是新一代的国产“AI”王炸。
盘古Chat

盘古Chat预计将于今年7月7日举行的华为云开发者大会(HDC.Cloud 2023)上对外发布以及内测,产品主要面向To B/G政企端客户。根据华为公布的一份论文数据显示,华为盘古PanGu-Σ大模型参数最多为1.085万亿,基于华为自研的MindSpore框架开发。整体来看,PanGu-Σ大模型在对话方面可能已接近GPT-3.5的水平。

盘古Chat是基于盘古大模型的一个应用场景,而盘古大模型则是由NLP大模型、CV大模型、多模态大模型、科学计算大模型等多个大模型构成,通过模型泛化,解决传统AI作坊式开发模式下不能解决的AI规模化、产业化难题。盘古大模型于2021年4月正式对外发布,后来又在2022年4月升级到2.0版本。目前,AI大模型中的NLP大模型、CV大模型以及科学计算大模型(气象大模型)均已被标记为即将上线状态。

盘古Chat的优势在于人才储备和算力自主可控,有望成为国内领先的大模型,其生态产业链标的有望迎来加速发展,包括拓维信息、四川长虹、麒麟软件(中国软件)、统信软件(诚迈科技)、麒麟信安等华为生态公司。

盘古大模型

盘古大模型是华为开发的一系列大规模自回归中文预训练语言模型,包括 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型等。它们都是基于昇腾计算产业生态构建的,可以在不同的行业和场景中提供智能化的服务和解决方案。

其中,NLP 大模型是业界首个超千亿参数的中文预训练大模型,被认为是最接近人类中文理解能力的AI大模型。它首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力。在预训练阶段学习了超40TB文本数据,并通过行业数据的小样本调优,提升模型在场景中的应用性能。在权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分83.046(人类水平是85.61分),多项子任务得分业界领先。

CV 大模型是超过30亿参数的业界最大CV大模型,首次实现模型按需抽取,首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求,自适应抽取不同规模模型,AI应用开发快速落地,使AI开发进入工业化模式。使用层次化语义对齐和语义调整算法,在浅层特征上获得了更好的可分离性,使小样本学习的能力获得了显著提升,达到业界第一。

多模态大模型具备图像和文本的跨模态理解、检索与生成能力。它可以根据不同的输入和输出类型,生成适合的内容和回复。例如,它可以根据一段文字生成一幅图像,或者根据一幅图像生成一段文字。

科学计算大模型主要解决各种科学问题,旨在用AI促进基础科学的发展。它可以用于物理、化学、生物等领域的研究和探索,例如气象预报、药物设计、材料发现等。

除了以上四个基础大模型(L0)以外,盘古大模型还包括 图网络(Graph)大模型 ,首创图网络融合技术,在工艺优化、时序预测、智能分析等场景有广泛应用。

盘古大模型不断进化,共分为L0、L1、L2三个层级。L0指基础大模型,L1指行业大模型,L2则是指面向更加细分场景的推理模型。目前,在 L1级别的行业大模型 方面,华为已经推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。在 L2级细分场景模型 方面,华为已经推出,例如基于气象大模型的短临气象预报、台风预测等场景模型;例如基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型;例如基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。此外,在物联网、智能座舱、智能驾驶等领域,华为都已推出基于盘古大模型的各种应用。

在 生态建设方面 ,华为盘古大模型是基于昇腾计算产业生态。关于AI生态型产业链,华为提出“一平台双驱动”的模式。其中“一平台”指基础软件平台,包括AI处理器、服务器硬件以及芯片使能软件、AI框架。“双驱动”指平台要支撑的两大生态,一是技术生态,二是商业生态,包括ISV(独立软件开发商)、IHV(独立硬件开发商)、整机、一体机合作伙伴等。

盘古大模型和GPT-3的差别

盘古大模型和GPT-3都是基于Transformer的大规模自回归预训练语言模型,都可以应用于多种自然语言理解和生成的任务,都具有强大的泛化能力和迁移能力。

但是,它们之间也有一些区别,主要体现在以下几个方面:

语言范围:盘古大模型主要应用于中文的文本生成、问答、翻译等任务。而GPT-3则可以应用于英文和其他语言的文本生成、翻译、自然语言推理、问题回答等任务。

数据来源:盘古大模型的训练数据来自于中文网络数据,包括维基百科、百度百科、新闻、论坛、社交媒体等,总共超过40TB。这种多样性的数据来源使得盘古模型拥有更广泛的知识和语言能力,对于中文应用来说具有很大的优势。

GPT-3的训练数据主要来自于英文网络数据,包括维基百科、谷歌书籍、新闻等,总共约45TB。
参数规模:盘古大模型有2000亿个参数,比 GPT-3 的1750亿稍高一点。参数规模越大,意味着模型可以学习到更多的信息和知识,也可以处理更复杂的任务。

架构设计:盘古大模型采用了Encoder-Decoder架构,兼顾了NLP理解与生成的能力。GPT-3则采用了Decoder-only架构,主要侧重于NLP生成的能力。Encoder-Decoder架构可以更好地处理输入和输出之间的对齐和映射关系,例如机器翻译、文本摘要等任务。

训练方式:盘古大模型在预训练阶段使用了多任务学习的方式,将不同的下游任务转化为语言模型的训练目标,例如机器翻译、阅读理解、文本分类等。这样可以使得模型在不同任务上共享知识和特征,提高泛化能力和迁移能力。

GPT-3则在预训练阶段只使用了单任务学习的方式,即自回归语言建模。

信息源:

(1) 一文看懂:华为盘古系列AI大模型到底是个啥?(附:盘古发布会观看地址) – 知乎. https://zhuanlan.zhihu.com/p/619518908.

(2) 大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481. (3) 华为加入大模型军备竞赛,“盘古Chat”将于7月发布药物行业分子. https://www.sohu.com/a/682291393_161795.

(4) 盘古大模型和GPT 专家交流 思考 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/617572386.

(5) 华为云提出盘古气象大模型:中长期气象预报精度首次超过传统数值方法,速度提升10000倍以上 – 知乎. https://zhuanlan.zhihu.com/p/582285853.

(6) HUAWEI4月8号发布中国版chatGPT盘古大模型 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/619325773.

(7) 拆解华为盘古大模型:与 ChatGPT 有何不同? – 知乎专栏. https://zhuanlan.zhihu.com/p/620559828.

(8) GPT综述-各模型之间的对比 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/450074465.

(9) 大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)_AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481.

(10) 消息称华为版ChatGPT“盘古 Chat”7月7日发布,面向To B/G政企端客户TechWeb. http://www.techweb.com.cn/it/2023-06-04/2928151.shtml.

(11) 消息称华为版 ChatGPT“盘古 Chat”7 月 7 日发布,面向 To B / G 政企端客户 – IT之家. https://www.ithome.com/0/697/519.htm.

(12) 好消息!华为自研ChatGPT将于7月7日发布 命名盘古Chat直接对标ChatGPT模型训练芯片. https://www.sohu.com/a/682076882_120930098.

(13) 华为版ChatGPT要来了!盘古Chat被视为新一代国产“AI”王炸. https://www.163.com/dy/article/I6FL90AN0519DG1H.html.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/642302.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML5+CSS3+Vue小实例:仿制B站PC端首页的吃豆人轮播图

实例:仿制B站PC端首页的吃豆人轮播图 技术栈:HTML+CSS+Vue.js 字体图标库:font-awesome 效果: 源码: 【html】 <!DOCTYPE html> <html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><…

功率放大器如何驱动水声声呐捕鱼?

第十五个“世界海洋日”&#xff0c;我们除了聚焦如何更好地保护海洋环境&#xff0c;对于海洋资源的可持续性利用&#xff0c;如何让“海洋宝藏”更好地造福人类&#xff0c;也是一个重要课题。想要发现更多的渔业资源&#xff0c;有项技术必不可少&#xff0c;那就是声呐技术…

Apache Log4j2 lookup JNDI 注入漏洞(CVE-2021-44228)

复现环境以及使用的工具 环境&#xff1a;使用Vulhub的漏洞环境 工具&#xff1a;bp和JNDIExploit-1-1.2&#xff0c;需要Java环境&#xff01;&#xff01; 攻击机和受害机配置 受害机&#xff1a;kali&#xff0c;ip地址为&#xff1a;192.168.150.135。使用vulhub漏洞环境…

无缝集合成功体验:打造高效的第三方API接口应用程序

欢迎来到我们的API接口 专业数据平台&#xff0c;今天我们将介绍如何使用库和框架API来简化开发流程&#xff0c;构建快速、可靠的应用程序。在本文档中&#xff0c;我们将重点介绍企业四要素API接口的作用&#xff0c;并提供一些示例代码可以帮助您更好地理解。 企业四要素是在…

统信下进行打deb安装包,ubuntu使用dpkg打deb包,tomcat的deb安装包制作

背景 由于安全需要&#xff0c;tomcat不能用解压缩版本&#xff0c;只能通过deb安装的方式使用。 制作tomcat的deb安装包 安装环境 使用 sudo apt-get install automake 将安装 autoconf{a} automake autotools-dev{a} 三个包。 使用 sudo apt-get install dh-make 将安装 …

docker离线安装mysql

docker离线安装mysql 第一步&#xff1a;找到一台联网的安装了docker的服务器&#xff0c;查看当前docker镜像&#xff1a;docker images &#xff0c;拉取mysql镜像包&#xff1a;docker save -o mysql.tar mysql:latest&#xff0c;其中latest为tag行内容 第二步&#xff1a…

号称 Java 面试八股文天花板(2023 最新版)首次开源

咱们先来说说&#xff1a; 最近感慨面试难的人越来越多了&#xff0c;一方面是市场环境&#xff0c;更重要的一方面是企业对 Java 的人才要求越来越高了。 基本上这样感慨的分为两类人&#xff0c;第一&#xff0c;虽然挂着 3、5 年经验&#xff0c;但肚子里货少&#xff0c;也…

Java中锁的分类,你了解几种?

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 文章目录 什么是锁隐式锁和显式锁隐式锁显式锁 悲观锁和乐观锁悲观锁乐观锁 公平锁和非公平锁公平锁非公平锁 可重入锁和非可重入锁可重入…

Java 基于 Apache ECharts 实现:柱状图、折线图、环形图等案例

Java 基于 Apache ECharts 实现&#xff1a;柱状图、折线图、环形图等案例 柱状图 效果图 源代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><meta http-equiv"X-UA-Compatible" content"IEedge" />&…

0基础转行,网路工程和网络安全哪个更有发展前景?

对于初学者而言&#xff0c;初入IT行业最重要的就是选择一个热门且前景好的职业&#xff0c;而网络工程和网络安全作为IT行业的热门职业必然成为很多人的首选&#xff0c;那么网络工程和网络安全哪个发展前景好?小编带大家详细了解一下。 首先&#xff0c;我们对网络工程和网络…

转行软件测试5年了,给还在犹豫的女生一点建议

首先你选择的方向是对的&#xff0c;软件测试这个岗位对于女生是相当友好的. 然后再说女生&#xff0c;软件行业&#xff0c;开发大部分都是男生&#xff0c;所以对于女生来说&#xff0c;因为天性&#xff0c;所以很多时候在互联网公司还是非常吃香的&#xff0c;加上女生本身…

采购中最常见的5个问题及解决方法

由采购引发的问题可能是代价昂贵的。员工可能会重复下订单&#xff0c;库存可能会损坏&#xff0c;而供应商可能会错过最后期限。为了减少和缓解你的企业今后出现采购问题&#xff0c;本文列出了5个最常见的问题&#xff0c;以及如何避免它们的发生。 误购重复或多余的物品 …

WLAN基本概述及简单组网配置

WLAN概述 WLAN即Wireless LAN(无线局域网),是指通过无线技术构建的无线局域网络。WLAN广义上是指以无线电波、激光、红外线等无线信号来代替有线局域网中的部分或全部传输介质所构成的网络。 家庭WLAN产品: 家庭Wi-Fi路由器:通过把有线网络信号转换成无线信号,供家庭电…

ChatGPT与Web的完美结合:创造一加一大于二的化学反应

怎么介绍Web&#xff1f; Web&#xff0c;全称World Wide Web&#xff0c;是互联网上的一种基于文本传输协议&#xff08;HTTP&#xff09;的网络服务系统&#xff0c;一言以蔽之就是&#xff0c;通过互联网进行全球范围内的信息交流与共享。 更简单易懂的表述就是&#xff0c;…

一文详解!Cypress环境搭建与配置

目录 前言&#xff1a; 基础环境安装 Cypress安装与配置 通过直接下载安装及配置 启动Cypress 前言&#xff1a; Cypress是一个现代化的前端测试框架&#xff0c;具有易用性、可靠性和可调试性等优势&#xff0c;适用于UI自动化测试、端到端&#xff08;E2E&#xff09;测…

JavaScript:从入门到精通:初始JS

JS基本思想 1. 浏览器对 JS 支持2. JS程序的组成3. JS 开发工具 1. 浏览器对 JS 支持 &#x1f9e1;背景 1997年 微软和网景公司合作发布了 ECMAScript 的语言规范 从那时起&#xff0c;微软所有浏览器都支持ECMAScript 标准 1999年&#xff0c;ECMAScript 第三版&#xff0c;…

Python篇——数据结构与算法(第五部分:数据结构)

数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成简单来说&#xff0c;数据结构就是设计数据以何种方式组织并存储在计算机中比如&#xff1a;列表、集合与字典等都是一种数据结构N.Wirth&#xff1a;“程序 数据结构算法” 1、列…

如何识别二叉树的“亲戚”?——探秘判断子树的奥妙

本篇博客会讲解力扣“572. 另一棵树的子树”的解题思路&#xff0c;这是题目链接。先来审题&#xff1a; 本题的思路是&#xff1a;使用递归&#xff0c;把大问题化作小问题。 先来思考&#xff1a;如何判断q是不是p的子树呢&#xff1f; q是p的子树有3种情况&#xff0c;分别…

不断进化!奇点云助豫园股份构建集团统一战略的数据平台

“一张图、一颗心、一场仗&#xff0c;构建集团统一战略的数据平台&#xff0c;豫园股份不断进化。” 日前&#xff0c;2023 StartDT Day 数智科技大会正式举办。企业客户、行业专家、技术专家与数万位参会伙伴相聚云上&#xff0c;共话数据时代进化之道。 作为消费产业的数字…

Spring Cloud - Ribbon 负载均衡原理、负载策略、懒加载

目录 ​编辑 一、Ribbon 负载均衡原理 1.1、前言 1.2、负载均衡的工作流程 二、负载均衡策略 2.1、策略原理 2.2、负载均衡自定义方式 三、Ribbon 加载方式 一、Ribbon 负载均衡原理 1.1、前言 ps&#xff1a;案例是上一章所讲的 “根据订单id查询订单的同时&#xff0…