在2022年末,不到半年时间,各家大语言模型的发展如雨后春笋,截至2023年9月,全球总共有接近100个大语言模型,可谓是百花齐放
显而易见,大语言模型凭借出色的AI对话能力,已经逐渐深入各个行业
2023 Google 开发者大会带来了 AI 专题,Google 技术推广工程师魏巍提出“将大语言模型部署到个人终端” ,关于这点,在外行看来可能只会觉得无非就是手机多了一个功能,但在开发者看来,这就相当于把一头牛装进一个冰箱
这里面涉及到的挑战大概有以下几点:
- 模型压缩和优化:大语言模型通常具有巨大的参数量和计算需求,无法直接在手机上运行。因此,首先需要对模型进行压缩和优化,以减小模型的大小和计算量。这可以包括剪枝、量化、低秩分解等技术,以及其他针对特定模型的优化方法。
- 移动端推理引擎:为了在手机上运行大语言模型,需要使用高效的移动端推理引擎。这些引擎通常针对移动设备的硬件和资源进行了优化,可以提供快速而有效的模型推理能力。一些流行的移动端推理引擎包括TensorFlow Lite、Core ML和NCNN等。
- 模型量化:由于移动设备的计算资源有限,为了提高模型在手机上的性能和效率,还可以对模型进行量化。模型量化是指将模型的权重和激活值转换为较低精度的表示形式,如8位整数或浮点数。这样可以减少模型的内存占用和计算需求,同时保持相对较高的准确性。
- 硬件加速:一些新一代的移动设备配备了专门的神经网络处理单元(NPU)或图形处理单元(GPU),可以提供更高的计算性能和效率。利用这些硬件加速器,可以进一步加快大语言模型在手机上的推理速度。
- 离线部署和云端支持:为了实现在手机上离线运行大语言模型,需要将压缩和优化后的模型部署到手机中。同时,还可以结合云端技术,通过与云服务器进行通信,在需要时获取模型的更新和支持。
当然,Google技术推广工程师在会上也提到了这点
“大语言模型占用的存储空间非常大,部署到终端设备的机器学习(ODML)难度很大,但运行较小规模的模型是可行的”
作为本次大会的核心内容,谷歌还发布了第二代大语言模型PaLM 2(Pathway Language Model),这是一个基于深度学习的自然语言处理系统,可以处理多种基于文本的任务,如推理、编码、翻译、生成等。PaLM 2具有极强的逻辑和推理能力,支持100多种语言,可以用于多种场景和领域。
会上还提到Google Cloud 的重点更新,谷歌在云平台中深度集成了AI,帮助出海企业及开发者轻松借力 AI 推动和实现创新
AI 是 Google Cloud 工作的核心。AI 产品和模型是 Google Cloud 第一个 AI 重点发展领域,帮助出海企业及开发者轻松构建和部署生成式 AI 行业应用,保障企业级的安全与隐私。Google Cloud 让企业可以轻松借力 AI 推动和实现大刀阔斧的创新。
Google已推出多个场景的大语言模型,从文本聊天,到图片、代码、语音和 Embeddings 嵌入,一应俱全
● 文本模型
在文本模型的新版本中,模型的输入长度限制从 8,000 个 token 增加到 32,000 个。这使得开发者能够轻松处理更长的文档,例如学术论文、法律文书、图书等等。PaLM 2 现在正式支持 38 种语言,包括中文、日语、德语、西班牙语等等。另外还有 100 种语言处于封闭式预览版阶段。
● 文本转代码模型 Codey
在新版本中,对于所支持的主流语言,代码生成和代码聊天的质量提升了将近 25%。
● 图片模型 Imagen
在已经拥有图片生成、编辑、标注和视觉问答等功能的基础上,增加了 “样式调整” 功能,让开发者只需要提供 10 张左右参考图片,就可以生成符合品牌特征或其他创意需求的图片。
以上这些内容,感兴趣的朋友可以在CSDN专题页观看相关专题回放视频,除了 AI 开发领域,还有 Mobile 开发、Web 开发、Cloud 开发领域的精彩内容等你探索。
https://marketing.csdn.net/p/8b1b4b3f5f0fe4c3cdf1c2d5e42a05c3