在2024.9.26的年Meta Connect大会上,Meta正式推出了Llama3.2模型,旨在提升边缘AI和视觉任务的能力。Llama3.2系列包括11亿和90亿参数的中型视觉模型,以及为移动设备优化的1亿和3亿参数的小型模型,并针对高通和联发科的硬件平台进行了特别设计。
Meta首席执行官马克·扎克伯格表示,这些模型将使开发者无需依赖大量计算资源,也能推动创新,尤其是在移动设备上的应用。他说道:“Llama3.2为开发者带来了先进的技术支持,即使在资源有限的情况下,也可以在边缘和移动设备上实现前沿创新与突破。”目前, llama.com 和 Hugging Face 上提供 Llama 3.2 模型下载,
让人兴奋的是,这次发布了更加轻量化的llama3.2 1B和3B模型,普通玩家也可以玩得起的模型。该模型支持128K个令牌的上下文长度,在设备端的应用中,诸如摘要生成、指令执行和本地边缘重写任务等场景中,具备行业领先优势。这些模型在发布之初便可在Qualcomm和MediaTek硬件上运行,并已为移动端ARM架构处理器进行了性能优化。
Llama 3.2 系列中的两个最大模型,11B 和 90B,支持图像推理任务,能够处理例如文档级别的理解,包括图表和图形的解析,图像描述,以及视觉锚定等任务。例如,用户可以询问某小企业在去年哪个月的销售表现最佳,Llama 3.2 可以从相关图表中推断出结果并提供快速回应。在另一个应用场景中,模型可以与地图进行交互,解答诸如徒步何时会变得更陡峭,或者某条标记小径的具体距离等问题。11B 和 90B 模型还能通过提取图像中的细节并理解场景,生成简短的描述性文本,帮助在视觉与语言之间架起桥梁,适用于图像描述或讲故事场景。
而较轻量级的 1B 和 3B 模型具备多语言文本生成与工具调用功能,开发人员可基于此开发高度隐私保护的、在本地设备上运行的个性化主动应用。这类应用可以确保用户数据不离开设备,从而提升隐私保护。例如,这些应用可以总结用户最近接收到的消息,提取其中的行动项,或通过工具直接发送后续会议的日程邀请。
本地运行这些模型有两大优势。首先,由于处理完全在设备端进行,响应非常迅速,几乎没有延迟。其次,本地处理确保了隐私保护,不会将敏感数据如消息或日历信息上传至云端,增强了应用的私密性。此外,应用还可以灵活决定哪些查询适合本地处理,哪些需要由更大规模的云端模型处理,从而优化性能和隐私之间的平衡。
评估结果显示,Llama 3.2 视觉模型在图像识别和各种视觉理解任务上的表现与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 不相上下。3B 模型在执行任务如指令处理、摘要生成、提示重写和工具调用等方面,超越了 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型的表现则与 Gemma 相近。
对模型在超过150个基准数据集上进行了评估,这些数据集涵盖了多种语言。对于视觉大语言模型(LLM),重点评估了其在图像理解和视觉推理任务中的表现。