昆仑万维或将引领国内 AIGC 技术发展

news2024/10/1 9:39:17

AIGC 发展历程

如果说 2021 年是元宇宙元年,那么 2022 年绝对可以称作 AIGC 元年。自从 Accomplice 于 2021 年 10 月推出 Disco Diffusion 以来,AIGC 受到了前所未有的关注,相关产品和技术更是以井喷之势快速更新迭代。

AIGC(Artificial Intelligence Generated Content)即人工智能生成内容。指通过使用人工智能技术,让计算机自动生成文字、图像或音频等内容的过程。AI 生成的内容通常被用于许多不同的领域,包括新闻报道、广告创意、电影剧本编写等。可以预见的是,AIGC 将给创作领域带来前所未有的改变,它使得人们能够节省时间和精力,专注于更重要的事情(创新想法)。

在 Disco Diffusion 推出之前,AIGC 领域最热门的技术是生成对抗网络(GAN),它的核心是两个神经网络,一个称为生成器的神经网络生成新的数据实例,而另一个称为鉴别器的神经网络评估它们的真实性,两个神经网络彼此对立,最终生成全新的“合成数据”。但是GAN不够稳定、出图时间长、训练内容也有所限制,所以以 GAN 为基础的人工智能生成应用并没有受到除学术界以外的关注。
在这里插入图片描述
GAN 图像生成

直到 Disco Diffusion 出现,AIGC 才真正可以构建产品级应用。Disco Diffusion 使用了 CLIP 和 Guided Diffusion两项技术,其中 Diffusion 对图片进行迭代去噪处理,而 CLIP 为 Diffusion 指引正确的迭代方向, 使图片向文本描述方向收敛,进而输出一个符合输入文本的图片。

Disco Diffusion 擅长对场景的刻画,输出图片内容恢弘大气,但是缺点也很明显:作图速度慢,输出一张1024*1024的图大概需要10分钟左右;对细节刻画不足;难以输出人像等。

Disco Diffusion 点燃了 AIGC 领域的火种,后续的 DALL-E、Stable Diffusion 和 Midjourney 更是把 AIGC 推向了高潮。Stable Diffusion 的核心是 Latent Diffusion Models,此模型在潜在表示空间中迭代“去噪”数据来生成图像,它降低了对显卡的需求,更是把出图时间缩短至十秒之内,出图精细程度上升了一个量级,而 Midjourney v4 模型的作图质量更是比 Stable Diffusion 更高。

在这里插入图片描述
出图效果,左→右:Disco Diffusion、stable diffusion midjourney

国内 AIGC 相关产品

除了作图工具之外,近期 chatGPT 又带起了一波语言模型的热潮,由于种种原因,国内用户并不能直接使用这些工具,所以很多国内项目也在开发更适用于国内用户的 AIGC 产品,但是从效果来看,很多产品的用户体验都比较差,并且功能不够完善,更多的只是直接把国外的开源模型拿来用。

纵观国内相关项目方的产品广度、深度、技术水平和实际测评,昆仑万维或许是唯一一个可以类比 OpenAI 的存在。

近期,昆仑万维与奇点智源共同推出 AIGC 系列产品“昆仑天工”,其模型涵盖领域包括图像、音乐、编程和文本四个领域,是国内目前为止模型最丰富的的 AIGC 工具。昆仑天工基本上可以作为国内替代 Stable Diffusion + chatGPT 的产品。下面就主要以昆仑天工为案例说一下对应赛道。

文本模型

昆仑天工的文本模型拥有多样的下游能力,包括续写,对话,中英翻译,内容风格生成,推理,诗词对联等,并在各项专业性领域的任务中(例如分类、匹配、填空、识别)表现突出,在实际测评结果上与现有大模型相比具有多方面优势。

现在市场上大部分文本模型都是直接接入 GPT,但是由于 GPT 本身对于中文的支持并不十分友好,所以对于国内用户使用还是存在一些障碍,**而昆仑天工系列产品针对中文领域构建了千亿级别的高质量数据案,包含数百张A100 GPU显卡的超算集群,训练得到百亿参数量的 GPT-3 生成模型。**现在在产品分为基础版和增强版,基础 GPT-3 模型被称为天枢,增强版称为瑶光,瑶光是相对能力最强大的模型, 适用于各种任务,而天枢是在模型的速度上做了极致的优化。

输入一些文本作为提示,模型将生成一个文本补全,补全功能几乎可用于任何任务,包括内容或代码生成、总结、扩展、对话、创意写作、风格转换等,示例如下:

在这里插入图片描述
文本模型测试

同时该模型提供了便捷的API支持,使用 Python 调用API示例如下:

import requests
import time
import hashlib
import json

url = 'https://openapi.singularity-ai.com/api/v2/generateByKey'
api_key = 'YOUR_API_KEY'        # 这里需要替换你的APIKey
api_secret = 'YOUR_API_SECRET'  # 这里需要替换你的APISecret
timestamp = str(int(time.time()))
prompt = '中国是一个伟大的国家'
model_version = 'benetnasch_common_gpt3'
sign_content = api_key + api_secret + model_version + prompt + timestamp
sign_result = hashlib.md5(sign_content.encode('utf-8')).hexdigest()

headers={
    "App-Key": "Bearer " + api_key,
    "timestamp": timestamp,
    "sign": sign_result,
    "Content-Type" : "application/json"
}
data = {
    "data": {
        "prompt": prompt,
        "model_version": model_version,
        "param": {
            "generate_length": 200,
            "top_p": 1,
            "top_k": 5,
            "repetition_penalty": 1.0,
            "length_penalty": 1.0,
            "min_len": 5,
            "bad_words": [],
            "end_words": ["[EOS]", "\n", "\t" ],
            "temperature": 1.0
        }
    }
}
try:
    response = requests.post(url, json=data, headers=headers)
    print(json.loads(response.text))
except Exception as e:
    print(e)

经过测试,瑶光的各项指标均处于同类模型前列:

任务类型续写扩写摘要
测评数据集人民日报LOT-OutgenCEPSUM
评估指标bleubleucoverageorderrouge-l
模型机构参数量
孟子澜舟科技10亿000016.37
闻仲IDEA35亿10.59.7536.4942.42.76
GLM智谱华章100亿4.941.0110.7329.2418.2
CPM-2智源悟道110亿0.3101.1922.750
瑶光奇点智源140亿9.817.2747.4146.5218.47

文本生成图片

文本生成图片是 AIGC 领域需求量最大的服务,昆仑天工在出图效果、精确度和速度上在同类产品中处于领先地位,其在增加中文提示词输入能力的同时兼容原版stable diffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在我们的模型上使用。

在中英文匹配方面,昆仑使用1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料字慕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合,这类中文适应模型能力对于国内用户来说是迫切需求。

在模型训练方面,昆仑在训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练,使得出图效果可以更加精确。

在这里插入图片描述
生成效果图

经过评测,其出图时间在10秒之内,成图率大于80%,采用 Chinese-CLIP(CN CLIP) 测试数据在同类模型中也处于领先水平。

下表为使用 Flickr30K-CN 的 test 数据集的评测结果,括号中为论文数据,最后两行为昆仑天工测试数据,整过过程先根据模型的 encode r得到 text 和 image 的 embedding,再经过统一的 KNN 检索,Recall,从而计算出检索任务的Recall@1/5/10和mean recall:

DatasetMethodText-to-ImageImage-to-TextMR
Zero-shotZero-shot
R@1R@5R@10R@1R@5R@10
Flickr30K-CNTaiyi-CLIP-Roberta-large-326M-Chinese53.84(53.7)79.9(79.8)86.56(86.6)64.0(63.8)90.4(90.5)96.1(95.9)78.47(78.39)
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese55.3(58.32)81.58(82.96)88.5(89.40)67.2()92.7()96.9()80.37()
Wukong ViT-L/1451.86(51.7)78.6(78.9)85.88(86.3)75(76.1)94.4(94.8)97.7(97.5)80.57(80.89)
R2D2 ViT-L/1442.6(60.9)69.46(86.8)78.64(92.7)63.0(77.6)90.10(96.7)96.40(98.9)73.37(85.6)
CN-CLIP ViT-L/1468.08(68.0)89.66(89.7)94.46(94.4)80.2(80.2)96.6(96.6)98.2(98.2)87.87(87.85)
AltCLIP-XLMR-L(AltCLIP)50.66(69.8)75.42(89.9)83.14(94.7)73.4(84.8)92.8(97.4)96.90(98.8)78.72(89.24)
prev_online(ours)61.5284.7290.6276.795.698.784.64
hide77_gpt2(online)(ours)58.8282.6289.5878.896.198.384.04

代码模型

昆仑天工旗下的 SkyCode 支持多种主流代码语言(java,javascript,c,c++,python,go,shell)的续写,根据代码注释写代码(解题),支持根据中文注释来序列代码,这个功能也是最受程序员关注的,Sky-code 可以直接集成到编辑器中,无缝衔接在开发环境,在键入代码的同时,智能高效补全代码,提升工作效率,节省开发时间。

实际工作示例如下:

如图,Sky-code 会从当前光标处进行代码的智能补全,灰色部分的代码提示通过键盘的 “Tab” 按键,会补全为代码内容

在这里插入图片描述
补全后结果为:

在这里插入图片描述
SkyCode 的代码模型质量还是很高的,支持中文注释,在速度上,每秒输出百字代码以上,比chatGPT 发布的版本速度还要快。对于代码模型来说,最重要的能力衡量指标是代码通过率,针对数据集中的问题,模型生成的代码需要通过单元测试才被认为生成正确。根据运行次数的不同,指标分为单次运行通过率(k=1),十次运行通过率(k=10)和百次运行通过率(k=100)等,通过测评,SkyCode 在多项指标都超过了GPT-J。

DatasetMethodText-to-Image函数级代码生成任务的数据集
Human-Eval 164(open ai发布)40Simples(40个贴近实际场景的简单case,奇点内部编纂)
k=1k=10k=100EDk=1k=10k=100编辑距离
GPT-JEleutherAI60亿11.62%15.74%27.74%35.8327.00%(t0.2)57.06%(t0.6)80.00%(t0.6)44.31
SKY-CODE奇点智源26亿10.37%(t0.2)18.52%(t0.6)30.69%(t0.6)37.3235.45%(t0.2)60.38(t0.6)84.77%(t0.6)51.1

总结

AIGC 技术的发展会极大程度上改变创作领域的格局,它降低了创作的门槛,让普通人可以做出原本专业人士才可以创作的作品,这是生产工具的变革,也是生产力的解放,一个新的时代即将到来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/95818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ Reference: Standard C++ Library reference: Containers: map: map: rend

C官网参考链接&#xff1a;https://cplusplus.com/reference/map/map/rend/ 公有成员函数 <map> std::map::rend C98 reverse_iterator rend(); const_reverse_iterator rend() const; C11 reverse_iterator rend() noexcept; const_reverse_iterator rend() const noe…

Unity - 搬砖日志 - MatierlaPropertyDrawer 中的参数如何匹配 - 自定义 Attribute 的参数提取

环境 Unity : 2020.3.37f1 搬一下砖&#xff0c;并记录&#xff0c;免得后续重新搬砖 完成的测试shader Shader "Unlit/TestMyEnuMatAttributeShader" {Properties{_MainTex ("Texture", 2D) "white" {}[MyEnumMatAttribute] _TestProp (&quo…

前端CSS实现苹果官网文字渐入效果

效果 分析 文字是从左到有慢慢呈现出来&#xff0c;不是整体消失和出现&#xff0c;那么肯定不能使用透明度。 我们可以想到渐变文字&#xff0c;然后通过改变背景的位置来控制文字的显示与隐藏。 渐变文字 渐变文字该如何实现呢&#xff1f;这是实现这个效果的关键步骤。 其…

计算机毕设Python+Vue校园闲置物品管理系统的实现(程序+LW+部署)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

看了那么多SSM整合,这一篇真的很用心。

1.邂逅 SSM 前言 记得大二上学期老师第一次讲 SSM 整合的时候&#xff0c;自己竟然浑浑噩噩睡过去了。 平时上课不好好听讲&#xff0c;后来听说期末要交大作业了&#xff0c;只能被迫去网上自学。 不对。。。少打个S&#xff0c;不过这真的是我第一次搜 SSM 的资料&#xff0…

华新环保深交所上市:市值49亿 前9个月净利降幅近30%

雷递网 雷建平 12月16日华新绿源环保股份有限公司&#xff08;简称&#xff1a;“华新环保”&#xff0c;证券代码&#xff1a;301265&#xff09;今日在深交所上市。华新环保本次发行股票7575万股&#xff0c;发行价13.28元&#xff0c;募资10.06亿元。华新环保开盘价为16元&a…

爬虫应用场景的利弊分析

相信大家在春节的时候都有过抢火车票的经历&#xff0c;对一些抢票软件一定不会感到陌生。今天我们就来从技术的角度&#xff0c;来看看抢票软件背后的东西——爬虫。通俗点说&#xff0c;爬虫就是模拟人的行为去各个网站溜达&#xff0c;并把看到的信息背回来的探测机器。如今…

Swagger是什么?Swagger怎么用?

Swagger 是一个规范且完整的框架&#xff0c;用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。 Swagger 的目标是对 REST API 定义一个标准且和语言无关的接口&#xff0c;可以让人和计算机拥有无须访问源码、文档或网络流量监测就可以发现和理解服务的能力。当通过 S…

(直连主题扇形)交换机

目录 一、交换机简介 1. Exchange&#xff08;交换机&#xff09;的作用 2.Exchange&#xff08;交换机&#xff09;的类型 ①.直连交换机&#xff1a;Direct Exchange ② 主题交换机&#xff1a;Topic Exchange ③ 扇形交换机&#xff1a;Fanout Exchange ④ 首部交换机…

NMS与Soft NMS算法解析与numpy实现

1. NMS算法 1.1 什么是NMS算法 NMS全称为Non Maximum Suppression&#xff0c;中文意思是非极大值抑制&#xff0c;字面意思就是不是极大值的元素被抑制掉&#xff0c;其实就是筛选出局部最大值得到最优解。NMS算法被广泛运用于目标检测算法处理网络输出的边界框。 1.2 为什…

【HTML基础篇002】HTML之form表单超详解

文章目录 &#x1f304;一、form表单是什么 &#x1f304;二、form表单的属性 &#x1f304;三、input中的各种Type属性值 &#x1f304;四、标签 &#x1f304;一、form表单是什么 表单是一个包含表单元素的区域。表单用于向服务器传输数据&#xff0c;从而实现用户与Web服…

jsp+ssm计算机毕业设计潮流服饰网店平台【附源码】

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; JSPSSM mybatis Maven等等组成&#xff0c;B/S模式 Mave…

第十四届蓝桥杯集训——if——配套用法示例

第十四届蓝桥杯集训——if——配套用法示例 目录 第十四届蓝桥杯集训——if——配套用法示例 方法1 方法2 其它指数幂 输入一个数n&#xff0c;判断n是否是2的指数。 n的取值范围(0>n<)​​​​ 题目看着很简单&#xff0c;其实在比较小的数上还是挺容易做的&…

CARIS11.4基本使用流程及其bug解决

今天博主介绍一下CARIS11.4的基本流程以及它的界面bug。 一、CARIS11.4的基本流程 如果以前用过CARIS9&#xff0c;不用看帮助说明&#xff0c;你摸索一段时间也能掌握CARIS11.4的使用流程。相比CARIS9&#xff0c;CARIS11.4的主要功能基本不变&#xff0c;增加了生成变分辨率…

毕业设计 - java web 进销存管理系统的设计与实现【源码+论文】

文章目录前言一、项目设计1. 模块设计系统需要具备以下功能2. 实现效果二、部分源码项目源码前言 今天学长向大家分享一个 java web 项目: 进销存管理系统的设计与实现 一、项目设计 1. 模块设计 系统需要具备以下功能 ⑴一般企业人员的计算机知识掌握的不多&#xff0c;因…

Android studio profiler中的Shallow size和retained sizes是什么意思

这个文章说得非常好&#xff1a;https://www.yourkit.com/docs/java/help/sizes.jsp#:~:textYourKit%20Java%20Profiler%20is%20capable%20of%20measuring%20shallow,the%20number%20and%20types%20of%20%20its%20fields. Shallow size&#xff1a;用于存储一个对象的内存大小…

【Python机器学习】聚类算法任务,评价指标SC、DBI、ZQ等系数详解和实战演示(附源码 图文解释)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一、聚类任务 设样本集S{x_1,x_2,…,x_m}包含m个未标记样本&#xff0c;样本x_i(x_i^(1),x_i^(2),…,x_i^(n))是一个n维特征向量。 聚类在分簇过程的任务是建立簇结构&#xff0c;即要将S划分为k&#xff08;有的聚类算法…

你不知道的 Git 技巧:如何实现核心代码保护

大家好&#xff0c;我是 shixin。 前段时间完成了一个核心代码保护的功能&#xff0c;目标是在关键代码被修改及时同步给其他人&#xff0c;避免没经过 review 就上线导致问题&#xff0c;提示的效果图如下&#xff1a; 在实现的过程中&#xff0c;用到一些平时使用不多的 Git…

微服务框架 SpringCloud微服务架构 多级缓存 48 多级缓存 48.8 查询Redis 缓存

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式&#xff0c;系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存48 多级缓存48.8 查询Redis 缓存48.8.1 OpenResty的Redis模块48 多级缓存 48.8 查询Redis 缓存 48.8…

spring切入点函数

切入点函数&#xff1a;用于执行切入点函数 1.execution 1.最为重要的切入点函数&#xff0c;功能最全 2.可以执行方法切入点表达式&#xff0c;可以执行类切入点表达式&#xff0c;可以执行包切入点表达式 弊端&#xff1a;书写比较麻烦 2.args 1.作用&#xff1a;主要用…