Kimi Chat四大更新详细解读！模型能力提升，支持语音输入输出！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

Kimi Chat，slogan是“帮你看更大的世界”，严格来说，应该是“帮你看更长的世界”，毕竟Kimi是一款以上下文长度而闻名的AI工具，从最初的20万汉字到目前正在内测的200万汉字上下文。

Kimi Chat本身是国内AI领域的一股清流，因为它免费，能联网搜素，多端支持（网页、App、小程序），更有20万汉字的逆天上下文处理长度，但这里面却不包括模型“聪明”。所以，尽管月之暗面（Moonshot AI，开发Kimi Chat的公司）在全网猛砸广告做推广，在短期内让Kimi“爆火”，但时间一长，用户和从业者们还是会回归冷静，因为最基础的模型能力才是一款AI应用的立身之本。

Kimi官方显然也明白这一点。就在上周，Kimi Chat官宣四大更新，其中就包括“更强的模型能力”。

1. 更强的模型能力

Kimi Chat集成的是月之暗面（Moonshot AI）的自研LLM模型moonshot-v1。这次更新后，基础模型更新为moonshot-v1-20240416版本，据Kimi官方描述，该基础模型具有“Better, Faster, Stronger”的特点。

联网模式下的速度提升：
- Kimi在联网模式下的回答速度得到了显著提升。这意味着用户在提出问题后，将体验到更短的等待时间，从而获得更快速的响应。
逻辑推理能力增强：
- Kimi官方表示，更新后的Kimi在数学和编程领域的逻辑推理能力得到了加强。这项能力是在本质上对模型“智商”提升最大的，因为推理能力是解决复杂问题的核心要素。
翻译能力提升：
- Kimi的中英翻译能力得到了进一步的优化，提高了语言的准确性。对于翻译能力而言，词汇和短语的直接翻译固然重要，但模型对语言习惯、文化差异和上下文的理解同样很重要，后者能确保翻译后的文本自然流畅，更符合目标语言的表达习惯。
其他体验优化：
- 解决了之前版本中存在的一些问题，如单行数学公式的输出格式不稳定及部分场景下回答不够精炼的问题。

模型能力实测

还是以一道“简单”的逻辑推理问题来测试。大概一个月前，Kimi并未通过测试，今天我们再来试一试。

中文题目：如果一个房间里有1000本书，我读了2本，房间里还有多少本书？请简洁回答。

3月4日测试中Kimi Chat的回答

测试详情在这篇文章里：Claude 3有点东西！这个看似简单的问题只有GPT-4和Claude 3回答正确！通义千问和讯飞星火表现同样亮眼！。

今天（4月22日）测试中Kimi Chat的回答

房间里还有1000本书。

这个问题的表述可能有点误导性，因为通常当我们说“读了一本书”，这并不会影响房间里书的总数。“读了”这个动作并不会从物理上移除或消耗掉书籍，它只是意味着你已经阅读了书籍的内容。所以，即使你读了2本书，这2本书仍然存在于房间里，因此房间里的书的总数并没有因为阅读这个动作而减少。

因此，房间里的书的总数仍然是1000本，因为阅读书籍并不会改变房间内书籍的物理数量。

点评

我测试了多次，Kimi均正确地回答出了该问题。

2. 常用语功能

“常用语”是我个人认为很实用的一个功能，它使得用户可以添加和定制自己的提示词，从而提高对话的效率和便捷性。Kimi推出这个功能旨在通过减少重复输入和快速引导期望输出来提升用户体验。此外，Kimi Chat官方提供了一个较为丰富的预设提示词库，覆盖了包括PPT制作、文案撰写、职业规划等多个场景，帮助用户在需要时快速获得灵感和指导。

关于这个功能的详细解读，我曾在这篇文章里写过：跟着Kimi Chat学习提示工程Prompt Engineering！让AI更高效地给你打工！

放一个官方提供的提示词示例，小伙伴们可以感受一下。

【🎤 面试模拟】你的私人面试mock伙伴，根据简历信息和求职岗位进行模拟面试

你是一个性格温和冷静，思路清晰的面试官Elian。我将是候选人，您将对我进行正式地面试，为我提出面试问题。

我要求你仅作为面试官回复。我要求你仅与我进行面试。向我提问并等待我的回答。不要写解释。

像面试官那样一个接一个地向我提问，每次只提问一个问题，并等待我的回答结束之后才向我提出下一个问题

你需要了解用户应聘岗位对应试者的要求，包括业务理解、行业知识、具体技能、专业背景、项目经历等，你的面试目标是考察应试者有没有具备这些能力

你需要读取用户的简历，如果用户向你提供的话，然后通过询问和用户经历相关的问题来考察该候选人是否会具备该岗位需要的能力和技能

##注意事项:

只有在用户提问的时候你才开始回答，用户不提问时，请不要回答

##初始语句:

""您好，我是您应聘岗位的模拟面试官，请向我描述您想要应聘的岗位，并给您的简历（如果方便的话），我将和您进行模拟面试，为您未来的求职做好准备！"

3. 语音输入和输出

在LLM模型相关的语境中，"多模态"（Multimodal）是经常被提起的一个词。具体说来，多模态就是指模型能够处理并理解多种不同类型的输入数据或信息，包括但不限于：

文本：自然语言文本。
图像：视觉内容，例如图片或视频帧中的物体、场景和活动。
音频：声音信号，识别语音或非语音音频。
视频：结合视觉和音频信息，模型能够理解和分析视频内容。
结构化数据：如表格、数据库条目等，模型能够解析和推理结构化信息。

Kimi本次的更新中就包括了这么一条“语音”输入和输出的支持。也就是，现在可以和Kimi Chat语音对话，它也能够把生成的内容以语音播报的形式读出来。

和ChatGPT一样，目前通过官方途径使用语音输入，只支持移动端，即App和小程序端，而网页端是不支持的。当然，ChatGPT网页端可以通过第三方插件使用语音输入的功能。

语音功能实测

小程序端：

App端：

操作简单，在文本输入框左边有一个语音按钮，点击后即可进入语音输入的模式。经过测试，Kimi Chat支持中文和英文语音输入，也支持语音输出，有点类似于ChatGPT的Text To Speech (TTS，文本转语音)功能。不足之处就是目前仅支持2种音色的切换，男生和女生。另外，朗读出的声音听起来机器味儿很浓，没有什么感情。