2023 Google 开发者大会：将大型语言模型部署到你的手机

news2025/7/17 12:04:31

在2022年末，不到半年时间，各家大语言模型的发展如雨后春笋，截至2023年9月，全球总共有接近100个大语言模型，可谓是百花齐放
在这里插入图片描述
显而易见，大语言模型凭借出色的AI对话能力，已经逐渐深入各个行业

2023 Google 开发者大会带来了 AI 专题，Google 技术推广工程师魏巍提出“将大语言模型部署到个人终端” ，关于这点，在外行看来可能只会觉得无非就是手机多了一个功能，但在开发者看来，这就相当于把一头牛装进一个冰箱

这里面涉及到的挑战大概有以下几点：

模型压缩和优化：大语言模型通常具有巨大的参数量和计算需求，无法直接在手机上运行。因此，首先需要对模型进行压缩和优化，以减小模型的大小和计算量。这可以包括剪枝、量化、低秩分解等技术，以及其他针对特定模型的优化方法。
移动端推理引擎：为了在手机上运行大语言模型，需要使用高效的移动端推理引擎。这些引擎通常针对移动设备的硬件和资源进行了优化，可以提供快速而有效的模型推理能力。一些流行的移动端推理引擎包括TensorFlow Lite、Core ML和NCNN等。
模型量化：由于移动设备的计算资源有限，为了提高模型在手机上的性能和效率，还可以对模型进行量化。模型量化是指将模型的权重和激活值转换为较低精度的表示形式，如8位整数或浮点数。这样可以减少模型的内存占用和计算需求，同时保持相对较高的准确性。
硬件加速：一些新一代的移动设备配备了专门的神经网络处理单元（NPU）或图形处理单元（GPU），可以提供更高的计算性能和效率。利用这些硬件加速器，可以进一步加快大语言模型在手机上的推理速度。
离线部署和云端支持：为了实现在手机上离线运行大语言模型，需要将压缩和优化后的模型部署到手机中。同时，还可以结合云端技术，通过与云服务器进行通信，在需要时获取模型的更新和支持。

当然，Google技术推广工程师在会上也提到了这点
“大语言模型占用的存储空间非常大，部署到终端设备的机器学习(ODML)难度很大，但运行较小规模的模型是可行的”
在这里插入图片描述
作为本次大会的核心内容，谷歌还发布了第二代大语言模型PaLM 2（Pathway Language Model），这是一个基于深度学习的自然语言处理系统，可以处理多种基于文本的任务，如推理、编码、翻译、生成等。PaLM 2具有极强的逻辑和推理能力，支持100多种语言，可以用于多种场景和领域。

会上还提到Google Cloud 的重点更新，谷歌在云平台中深度集成了AI，帮助出海企业及开发者轻松借力 AI 推动和实现创新

在这里插入图片描述

AI 是 Google Cloud 工作的核心。AI 产品和模型是 Google Cloud 第一个 AI 重点发展领域，帮助出海企业及开发者轻松构建和部署生成式 AI 行业应用，保障企业级的安全与隐私。Google Cloud 让企业可以轻松借力 AI 推动和实现大刀阔斧的创新。

Google已推出多个场景的大语言模型，从文本聊天，到图片、代码、语音和 Embeddings 嵌入，一应俱全
在这里插入图片描述

● 文本模型
在文本模型的新版本中，模型的输入长度限制从 8,000 个 token 增加到 32,000 个。这使得开发者能够轻松处理更长的文档，例如学术论文、法律文书、图书等等。PaLM 2 现在正式支持 38 种语言，包括中文、日语、德语、西班牙语等等。另外还有 100 种语言处于封闭式预览版阶段。
在这里插入图片描述
● 文本转代码模型 Codey
在新版本中，对于所支持的主流语言，代码生成和代码聊天的质量提升了将近 25%。