赛博·新闻
1、Google 狂卷小模型,2B 参数 Gemma 2 赶超 GPT-3.5
Google本周发布了开源的轻量级、高性能模型 Gemma 2 2B。它拥有 20 亿参数,是从更大规模的模型中提炼而来的,在 LMSYS 大模型竞技场的得分超越了 GPT-3.5 和 Mixtral 8x7B。该模型适合在多种硬件环境下运行,包括边缘设备、笔记本电脑以及基于云的部署环境,适用于数据中心、本地工作站和边缘 AI 应用。除了性能优势,Gemma 2 2B 还配备了 ShieldGemma 安全分类器和 Gemma Scope 工具。
2、谷歌推出的Gemini 1.5 Pro Experimental 0801
本周Google也发布了Gemini 1.5 Pro Experimental 0801,Gemini 1.5 Pro 0801在LLM竞技场的综合排名超过了GPT-4o mini变成了第一位。谷歌说这是一个实验版本还不算正式版本,所以只在AI Studio中提供。但是从测试来看Gemini 1.5Pro 0801的多模态能力非常强大,基本超过了GPT-40和Claude 3.5,而且它支持音频以及视频。
3、OpenAI 推出 ChatGPT 高级语音模式
OpenAI 于2024年7月30日推出了面向ChatGPT Plus用户Alpha版本的高级语音模式,该模式允许用户体验GPT-4o的超逼真语音交互。GPT-4o是一个多模态模型,能独立完成语音到文本和文本到语音的转换,降低对话延迟。Alpha版本不包括春季更新的视频和屏幕共享功能,这些将在后续推出。此外,GPT-4o能感知情绪语调,但目前无法模仿特定声音,且有新的版权保护措施。
4、Character.AI创始团队被谷歌「收购」,只要人不要公司
8 月 3 日,Character.ai 内部表示,Google 将以 25 亿美元的估值收购其投资者股票(每股 88 美元),高于此前 10 亿美元的估值,但仍低于去年该公司与早期投资者谈判的 50 亿美元。Google 对 Character.ai “收购”方式,同微软& Inflection 以及亚马逊& Adept 的合作方式,Character.ai 联合创始人 Noam Shazeer 以及总裁 Daniel De Freitas 将重返 Google,加入 DeepMind 研究团队。
5、Kimi联合AIPPT推出PPT助手
Kimi上线PPT助手智能体,可以结合上传的文档和提示词快速生成PPT,体验了下还不错,可以满足一些简单的学习工作汇报。
6、Midjourney v6.1 正式上线,细节更丰富
本周,Midjourney 上线了新版本 v6.1,不少网友直呼和摄影已经几乎没有区别了。此次版本升级如下:
- 更强一致性(比如手臂、腿、身体、动植物等)
- 图像质量更好(减少伪影、增强纹理等)
- 更详细、更精确理解小图像特征(比如眼睛、小的脸等)
- 更好图像/纹理质量
- 更快生成速度,标准图像提升 25%
- 提高文本准确性
- 全新个性化模型
- 个性化代码版本控制:可以将之前版本的代码用在新版本中
- 一个新的-q2模式,可以增加更多纹理,但是需要更长时间(增加 25%),一致性也会下降
7、Meta 推出 AI Studio 工具,用户可创建定制 AI 角色
Meta 公司本周推出了 AI 工具 AI Studio,允许用户创建、定制和分享自己的 AI 角色,目前仅在美国地区提供。据悉,AI Studio 可以创建「创作者 AI(Creator AI)」和「AI 角色(AI character)」两种 AI 角色,前者为基于自己构建的 AI 延伸,可以代替自己和其他用户交流;后者则是用户自己自定义、虚构的 AI 角色。目前该功能已经集成在 Instagram、Messenger、WhatsApp 等 Meta 旗下社交平台之中。
赛博·洞见
1、马斯克最新6万字访谈!8.5小时详解脑机接口、机器人、外星人,以及AI与人类的未来(一)
Elon Musk在与Lex Fridman的8.5小时播客中,深入讨论了Neuralink脑机接口技术、人工智能、人形机器人Optimus、外星生命探索以及人类与AI的未来关系。Musk分享了Neuralink的进展、人类意志的本质、人工智能的安全性、火星殖民的重要性以及对人口问题的担忧。他强调了提高人脑与AI通信速度的重要性,以及通过技术实现人类增强和多星球生存的愿景。
2、万字采访 | Perplexity CEO:我们最大的障碍不是 Google,而是人们天生不擅长提问(下)
Perplexity AI的CEO Aravind Srinivas在与Lex Fridman的深入对话中分享了他对人工智能未来的看法,特别是Perplexity作为知识发现引擎的创新之处。他强调了Perplexity与谷歌的不同之处,以及它如何通过提供更深入的答案来激发人们的好奇心和探索精神。Aravind还讨论了AI在提高用户界面和体验方面的作用,以及AI的伦理问题,包括确保信息的准确性和可靠性。他提出了一个以知识为中心的公司愿景,旨在引导用户发现新知识和深入理解复杂问题。上周分享了了上篇:万字采访 | Perplexity CEO:我们最大的障碍不是 Google,而是人们天生不擅长提问(上)。
3、黄仁勋对谈扎克伯格:Llama 4或将摆脱聊天机器人形态|甲子光年
在第50届SIGGRAPH图形大会上,英伟达CEO黄仁勋与Meta CEO马克·扎克伯格讨论了人工智能的最新进展,包括Meta的开源模型Llama 3.1、AI Studio工具的发布,以及人工智能在虚拟世界中的应用。扎克伯格强调了生成式人工智能在内容推荐中的重要性,并展望了未来人工智能将如何从聊天机器人进化为更复杂的任务执行者。黄仁勋则对Meta的开源哲学表示赞赏,并讨论了人工智能在工业应用中的潜力。
4、AI 打开我们未曾想象的新世界
作者AI炼金术,本文探讨了人工智能在创作和内容生成中的应用,提出了将创造过程分为“提取”和“重新组合”两个步骤,以及利用AI的“多”而非“强”来创造优质内容。文章还讨论了AI在思维模型替代、识别隐藏连接、自我表达和创造需求、以及不同维度抽象和编码的重要性。
5、斯坦福大学赵轩:心理疗愈Agent
斯坦福大学心理学系研究科学家赵轩博士开发了人工智能心理疗愈Agent Sunnie,它基于大语言模型,具备多轮自然对话能力,推荐个性化活动,旨在提升心理健康和幸福感。Sunnie通过结构化交互和反馈循环,提供个性化幸福辅导和活动推荐,已在用户研究中显示出积极效果。赵博士强调了积极心理学在Sunnie设计中的重要性,并展望了其在心理健康领域的应用潜力。
6、LLM经典论文速读版,看完感觉自己通透了
作者皇子,本文为读者提供了31篇关于大型语言模型(LLM)的精选论文速读版,旨在帮助AI爱好者和研究者快速把握LLM领域的核心技术和最新进展。文章涵盖了模型架构、预训练、微调、提示词等多个方面,同时提供了高效阅读中文翻译版原文的方法和一些阅读技巧。
7、27岁,只做toB,估值55亿,不追AGI
加拿大AI大模型公司Cohere完成5亿美元D轮融资,估值达55亿美元,专注于ToB市场,提供定制化AI服务和产品。Cohere由《Attention Is All You Need》论文作者之一Aidan Gomez联合创立,其业务模式以解决企业实际问题为核心,不追求AGI,通过技术创新和资本效率,致力于提升企业运营效率,同时注重数据隐私和安全性。
8、两款头部产品流量下滑50%+,刚找到的AI流量密码失效了?
本文分析了当前AI插件产品流量下滑的现象,指出了Chrome Extensions产品如Liner和Eightify等在经历流量高峰后出现显著下降的问题。文章探讨了流量下滑的原因,包括SEO策略的反噬、产品功能同质化以及用户需求的精准度不足。同时,文章也讨论了Chrome插件开发的优势与限制,并预测了插件产品未来的发展方向。
9、入口之战:AI 时代的「二维码」,在哪里?
作者赛博禅心,本文探讨了AI时代可能的“二维码”——即新的信息交互入口,并分析了二维码在移动互联网时代的成功原因。文章指出,在AI时代,信息处理方式发生了变化,AI能够根据用户输入提供个性化结果。作者通过个人实践和对行业趋势的观察,提出AI应用应更自然地融入用户生活,以实现人与AI的共生。
10、OpenAI投资,前苹果设计师开发的AI应用,拥有超强记忆力成为最懂你的“人”!
本文介绍了由前苹果设计师Jason Yuan开发的AI聊天应用Dot,该应用凭借其超强记忆力和个性化服务获得了OpenAI的投资。文章通过作者的深度体验,展示了Dot在话题引导、记忆能力、情绪价值提供等方面的优势,同时也指出了其在隐私安全方面的争议。
11、十问网红多模态AI应用:胃之书
本文深入分析了一款名为“胃之书”的AI应用,它在过去两个月内迅速走红但面临增长和用户留存挑战。文章从产品设计、创新点、用户增长、数据表现、用户需求、媒体关注、个人体验、产品定位、新产品研发等方面进行了全面探讨,指出了胃之书在满足用户深层次需求和产品持续创新上的不足,并提出了对AI应用发展的思考。
12、3个月成为 AI 魔法师,还是永远当个麻瓜?关键在这里
作者MQ老师,本文探讨了如何成为AI时代的魔法师,即能够有效利用AI技术提升个人能力的人。文章指出,关键在于能够清晰表达隐性经验,并通过与AI的大量交互,将其转化为可操作的步骤或提示词,从而提高思维能力和专业技能。作者认为,终身学习者和大模型的创造者将是这场AI革命的最大受益者。
赛博·工具
1、Luvvoice: 文本转语音
免费的在线文本转语音服务,提供各种语言的超过200种语音。
2、Diffree:图像编辑工具
一个在线图像编辑工具,通过文字指令添加新元素到图片中,比如文字输入"为天空增加几片云"。
3、0v0.ai:图片背景移除工具
一款免费的图片背景移除工具。
4、Apparate:让图片变成说话视频
Proteus 0.1,实时视频生成为您的 AI 注入活力。Proteus 可以大笑、说唱、唱歌、眨眼、微笑、说话等等。只需一张图片。
赛博·资源
1、grammar-club:语法俱乐部书籍
旋元佑老师的语法俱乐部书籍电子版。
2、生成式AI商业落地白皮书(关注公众号【产品老A】回复【生成式AI商业落地白皮书】下载)
本白皮书是一份为企业决策者(CXO)准备的AI转型战术指南,由RollingAI联合InfoQ研究中心撰写。白皮书深入探讨了生成式人工智能(AI)技术在商业领域的应用现状、挑战、应对策略以及未来趋势,并提供了丰富的行业应用案例和实施建议。白皮书强调,生成式AI技术为企业提供了新的生产力和竞争力,企业需要拥抱变革,积极探索AI技术在业务中的应用,重塑组织能力和商业模式。通过构建知识库、优化工作流程和采用新技术,企业可以在AI时代中获得竞争优势。
3、AI视频生成研究报告(关注公众号【产品老A】回复【AI视频生成研究报告】下载)
本报告由量子位智库撰写,深入分析了AI视频生成技术的现状、发展趋势、市场潜力以及行业内主要企业的布局。该研究报告综合考察了AI视频生成技术的发展背景、关键技术、应用场景以及面临的挑战和机遇。报告首先介绍了AI视频生成技术的基本原理和发展历程,随后分析了技术在不同行业中的应用实例,如娱乐、教育、医疗等。此外,报告还探讨了技术发展的驱动因素,包括硬件进步、算法创新以及数据量的增加。最后,报告对AI视频生成技术的市场前景进行了预测,并提出了行业发展的建议。
【推广时间】
欢迎大家关注我的个人公众号【产品老A】。
公众号简介:6年互联网大厂AIPM,专注探索新型人机交互。
老A是谁?——AI领域多年从业经验,见证了AI的沉寂和崛起。 热爱AI技术和产品,更热爱分享,希望将知识传递给更多人。 坚信AI的力量,致力于推动AI技术的应用和普及。