- ◆ 大会概览
- ◆ 主旨与技术亮点
- ◆互动体验区探秘
- ◆智汇Google技术问答
- ◆未来展望与建议
2024 Google 开发者大会于8月7日、8日在北京召开,很荣幸我作为嘉宾参加了这次大会,有机会与大家一同聚焦 Google 最新 AI 技术。在这篇文章中我们将一起亲眼见证 Google 在 AI 领域的最新突破与进展。
◆ 大会概览
2024 Google 开发者大会(I/O Connect China)作为谷歌公司每年举办的面向全球开发者的年度盛会,往往展示了其最新的技术进展、开发工具革新以及行业趋势,这不仅吸引了来自全球各地的科技爱好者、开发者以及行业专家,还为中国出海开发者提供了一个与全球顶尖科技企业交流的平台,自举办以来已经成为全球科技界、开发者社区及技术创新者瞩目的焦点。
我将从 2024 Google 开发者大会主旨与技术亮点、互动体验区探秘、未来展望与建议、智汇 Google 技术问答等几个模块带领大家共同见证 Google 在 AI 领域的最新突破。
◆ 主旨与技术亮点
2024 Google 开发者大会的主题为智启万象。我将“智”理解为智能技术,特别是人工智能(AI),其在将来的科技发展中将占有核心地位。“启”即启迪、启发。“万象”即包罗万象,本意是指宇宙间的一切事物,在这里也寓意着智能技术将涵盖广泛的技术领域和应用场景。借用“万象”这个表述,大会为全球开发者传递了一个信息:在智能技术的引领下,未来的世界将充满无限可能。
开幕式中谷歌大中华区总裁陈俊廷率先致辞,后续多位国内外技术专家与 Google 高管为我们分享了多个重磅的 AI 产品更新与技术进展。包括 Gemini 系列模型及其集成到多个开发工具中的情况。还推出了 Gemma 系列模型,特别是 Gemma 2 模型,展现了强大的性能和安全性。
在详细的听取各位技术专家的技术讲解后,令我印象深刻的便是 Gemini 系列和 Gemma 系列。
多模态 AI 模型 Gemini 具备强大的多端集成能力,能够在不同的设备和平台上实现高效运行和交互,如 Web 端、PC 端、安卓等都可以轻松集成。例如 Gemini Nano 已被集成在 Pixel 8 Pro 智能手机中,为录音机应用中的总结智能回复等功能提供支持。作为一个从头开始构建的多模态模型,Gemini 还能够概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频等。而现在 Gemini 系列模型也已被广泛应用于谷歌的多个产品和服务中,包括搜索、广告、Chrome 等。
相较于 Gemini,Gemma 则更为轻量,较小的模型尺寸(如 2B 和 7B 参数)使得 Gemma 模型可以在资源有限的环境中部署,如笔记本电脑、桌面电脑或云基础设施。Gemma 适用于多种自然语言处理任务,如文本生成、机器翻译、文本摘要、问答等,它特别适合执行各种文本生成任务,例如问答、摘要和推理等。
Gemma 2 相较于前代在性能、效率、易用性和安全性等方面都进行了显著的更新和优化。首先是规模增加,Gemma 2 提供了两种规模的版本,分别是 9B(90亿参数)和 27B(270亿参数),每种规模又分为预训练基础版和指令调优版,总共四个版本。虽然参数规模增加,但 Gemma 2 通过优化模型架构和训练方法,使得模型在保持高性能的同时,也具备了更高效的推理能力。其次较小的模型规模使得 Gemma 2 能够在更广泛的硬件上部署,从而大幅降低了成本。
◆互动体验区探秘
大会的互动体验区设计可谓丰富多样,技术与产品趣味互动展示区为参会者提供了独特的智趣运动体验。如智趣蹴鞠、Gemini 高尔夫陪练、智能大黄等。
智趣蹴鞠。这是一个结合了 AI 技术的蹴鞠体验项目,让参与者通过 AI 技术感受传统运动,通过分析参与者的每一次动作和表现,AI 系统能够给出针对性的指导和建议,帮助参与者提升蹴鞠技能。而且它还包括了 AI 辅助训练,提供个性化的训练方案。
Gemini 高尔夫陪练。通过先进的 AI 算法,对参与者的挥杆动作进行实时捕捉和分析。它能够识别出参与者的挥杆姿势、力量分布、击球角度等关键指标,并给出针对性的指导建议。
智引线。利用摄像头捕捉并分割引导线(如道路上的标线、人行道边缘等),为视障者提供清晰的路径指引。通过耳机和空间音频技术,智引线能够实时为跑者提供路线纠正和导航提示,确保跑者能够沿着正确的路径前进。我实际体验了这个项目,在戴上眼罩的情况下,仅需通过耳机的音频来判断前进方向便可以沿着正确的路径前进。可以说极大解决了视障人士在户外活动中面临的导航和路径识别难题。
除了上述具体项目外,谷歌还通过其 AI 技术为其他社会公益事业提供支持。例如高原智牧助手,在放牧的过程中仅需拍一张照片就可以知道这头牛/羊的体重、状态等各项身体指标,帮助牧民高效管理数据。还有针对视障群体的慧眼识教;针对听障群体的手语村、听语精灵等 AI 社会公益项目都让我真正体会到了 AI 技术真正的进入了人的生活,可以看到 AI 技术在改善人类生活、促进社会包容性方面有着巨大潜力。
◆智汇Google技术问答
在参会前向多为开发者小伙伴们征集了对 Google 技术最感兴趣的问题,我在这里整理出了两个问题并为大家解答:
① Project Astra 项目将如何改变安卓用户的交互体验?
首先是实时多模态交互。作为一个基于 Gemini 的多模态 AI 项目,Project Astra 能够实时理解视频和音频输入。用户可以通过手机摄像头直接提问,Astra 将实时处理图像并给出准确回复。
其次安卓端 Gemini 工具的升级将使其更好地理解屏幕内容,无论是 PDF 文件、视频还是其他类型的内容。比如用户可以通过截图或圈选题目等方式,快速获得解题思路和答案,或者总结文件内容。
② BERT和MUM在处理多语言文本方面的能力有何差异?与传统的自然语言处理模型相比,BERT和MUM的优势体现在哪些方面?
BERT 提供了多语言模型(如 mBERT),可以同时处理不同语言的文本,并在多种语言任务上表现出色,然而 BERT 的模型规模相对较小,这使得它在处理大规模数据和多任务时可能受到一定限制。
相较于 BERT,MUM 具有更强大的多语言能力。它可以在多个任务之间进行无缝切换,包括文本、图像和语音等多种形式的任务,并能够在不同语言之间进行翻译和理解。此外 MUM 模型的参数数量巨大,它在处理复杂任务和大规模数据方面具有显著优势。
从优势来看 BERT 采用了双向编码器结构,能够同时考虑每个词左侧和右侧的上下文信息,从而更好地理解文本语境。而且 BERT 由多层 Transformer 模块构成,能够处理不同水平的语义信息,提高了模型的表示能力。
MUM 可以在多个任务之间进行无缝切换,包括文本、图像和语音等多种形式的任务,在实际应用中具有更高的灵活性和实用性。而且在处理多语言文本时表现出更高的准确性和效率,能够更好地满足全球化背景下的语言处理需求。
◆未来展望与建议
在刚刚结束的 2024 Google 开发者大会上,我真切感受到了未来科技的无限可能。这次盛会不仅是一次知识的盛宴,更是对未来科技趋势的一次深刻洞察。人工智能正在以前所未有的速度融入我们的日常生活和工作。在未来 AI 将不仅仅局限于特定领域,而是会渗透到各行各业,成为推动社会进步的重要力量。从智能家居到智慧城市,从医疗健康到教育娱乐,AI 将无处不在,为我们提供更加便捷、高效、个性化的服务。2024 Google 开发者大会为我们描绘了一幅充满希望和机遇的未来科技图景。
各位小伙伴如果想要学习和了解更多的谷歌AI技术,可以登录 https://ai.google Google 开发者中文网站 - AI 学习页面进行学习。