兴趣了解
- [OpenAI ]人工智能绘画产品 DALL·E: 在计算机上输入一句话,DALL·E 就能够理解这句话、然后自动生成一幅意思相应的图像,且该图像是全网首发、独一无二。
- [谷歌 ] 5400 亿参数大模型 PaLM: PaLM 的文本理解能力与逻辑推理能力大幅提升,甚至可以用文本解释笑话,告诉读者为什么这个笑话好笑。
AIGC 是GAN基础上的一次飞跃提升。
DALL.E 背后的关键技术:CLIP
CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL·E、DALL·E 2.0、Stable Diffusion 等突破性 AI 成果的基石。
相关团队:
- 何恺明团队:在CLIP出来之后,提出的一种AI范式MAE,可以将在语言任务上表现优秀的能力迁移到视觉任务的处理上。
- 心辰科技(盗梦师团队)创始人蓝振忠: 在Stable Diffusion 推出之后,只用了不到一个月的时间就上线 AI 作画产品“盗梦师”,并迅速在国内火起来,出图速度短至 1 秒,而且绘画质量非常高,日留存率接近50%(高于 90% 的小程序),不到两个月就接到了 To B 的大订单
“盗梦师” 生成的图像作品:“阳光明媚的下午,奶奶躺在摇椅上晒太阳” ↓
相似产品:
- Midjourney
助力领域:
- 自媒体 KOL
- 插画师群体与图文创作者
推荐阅读
- 《 AIGC 白皮书》
AIGC的衍生分支:
- 文本生成
- 视频生成
- 音乐生成
哪些东西助力了 AIGC的发展:
- 大模型
- 多模态
- 可控制
文字生成的商用公司:
- Jasper.ai
- Copy.ai
开发了机器自动写作平台,用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文,用于替代写作过程中的大量劳动,并能兑换出商业价值。
文字与图像的多模态研究大体可以分为三个阶段 :
1、图文描述(让计算机描述画中的事情);
2、图文问答(给一张图片,问这个图片里的桌子上都有什么东西。机器人需要理解问题,再了解图片里都是些什么东西);
3、用一句话生成图片(让机器人通过一句话的描述作画)
AIGC 可以从来做什么?
- 比如电商平台的服装上新,目前的模式是线下拍摄,需要化妆师、服装师、摄影师、模特等等,而在未来的 AIGC 世界中,他们希望用 AI 直接生成能展示服装的模特图像。
- 现在,他们的 AIGC 产品“ YUAN 初”小程序已经在图像编辑上取得惊人的效果:
- 比如设计行业,小到海报、PPT、网页,大到所有商品的外包装、插画等对原创素材要求高的应用,都有 AIGC 的用武之地。
- 在没有 AIGC 之前,建筑设计师是先用铅笔画草图,画完之后觉得好看再弄成彩铅,彩铅版本满意后再做一个 3D 的视觉效果图给甲方客户看,甲方满意再设计建筑里面的工程结构等等。而有了 AIGC 之后,他们从第一步就极大地节省了时间,快速将设计师脑海中的方案用 AI 生成出来,发给甲方看。
ZMO.AI 是国内最早成立的 AIGC 公司之一。
AIGC存在的困难:
以文本生成为例,AIGC 的商业变现实际十分依赖用户驱动。但目前国内的中文语言大模型在开源一块缺少高质量的语料数据,导致中文版的 AI 在不同话题的写作质量上参差不齐;同时,国内的文字从业者在人力成本上普遍低于海外欧美发达国家,AIGC 在内容生成一块替代人力的节约成本也明显低于海外市场。
落地的 AI 在涉及与人博弈的场景中,AI 所提供的服务成本必须在相较于人力成本上有明显优势,才会被现有行业所接受
但更多的人相信,AIGC 会改变现代生产与生活的方方面面,因为 AIGC 所解决的问题是现存的、而非假设的。
算法与数据的选择也决定了各个企业后续在不同场景中的表现高低。
参考链接:https://mp.weixin.qq.com/s/6ThlQNvAidPfGkMXKHRUtQ