每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。
据今日发布的消息,2024年首个大型语言模型“稳定代码3B”已正式发布。这一新型LLM是继此前发布的“稳定代码Alpha 3B”之后的首个重大发布,它是一款专为代码补全而设计的最新状态模型,增加了多项额外功能。
与CodeLLaMA 7b相较,尽管“稳定代码3B”的体积缩小了60%,但它在多种编程语言中保持了类似的高水平表现。该模型基于已有的“稳定LM 3B”基础模型,后者接受了4万亿自然语言数据标记的训练。针对软件工程特定数据的进一步训练,包括代码,使得“稳定代码3B”模型尺寸紧凑,可在现代笔记本电脑上私密地、实时地运行,即使在没有专用GPU的设备上也是如此。
“稳定代码3B”在多种编程语言上提供了更多特性和显著改进的性能,还增加了如填补中间能力(FIM)和扩展上下文大小等附加优势。基于稳定代码,该模型接受了最多16,384个标记的序列训练,且采用了类似于CodeLlama的方法实现旋转嵌入技术,可选择性地修改旋转基底至高达1,000,000,从而进一步扩展模型的上下文长度至100k标记。
该模型经过了对18种编程语言的训练,这些语言是基于2023年StackOverflow开发者调查所选定的,且在多种编程语言测试的MultiPL-E度量标准上展示出了与类似大小模型相比的最先进性能。
去看看:https://huggingface.co/stabilityai/stable-code-3b