Kimi和豆包，谁解对了这道数学题？,12月16日，Kimi的意外变化

2024-12-18 10:17:46 发布在软件教程87

这道数学题，Kimi和豆包谁答对了？

12月16日，Kimi的意外变化

12月16日下午，我像往常一样使用Kimi，突然发现Kimi数学版的和蔼小眼镜logo的眼镜框变大了。鼠标移过去一看，“Kimi数学版”已经正式改名为“Kimi视觉思考版”。这让我想起上周为Kimi数学版写的测评文章。

Kimi数学版的初印象

11月26日下午，Kimi上线了k0-math模型驱动的Kimi数学版。官方的宣传非常简洁，只有3张图：主题、入口和能力测评。Kimi用数据说话，直接对标了ChatGPT的o1-mini模型，主打“人狠话不多”的风格。

为了吸引更多的用户，官方还提供了一些玩法建议：“听说Kimi数学版不仅擅长数学，还能像《生活大爆炸》里的Sheldon一样，用理科思维解释生活中的各种现象。你还可以让它陪你玩24点游戏。”

由于我的数学知识早已还给老师，数学水平和急需AI提升教育属性从而辅导孩子做作业的家长差不多，所以我决定验证一下Kimi在数学题上的表现。这篇测评经历了一些波折，尚未发表。Kimi改版后，测评虽然成了明日黄花，但也给了我审视两个版本Kimi差别的机会。

测评Kimi数学版

为了测试Kimi的数学能力，我决定用AI给AI出题，看看Kimi的表现如何。

1.我让豆包帮我出一道经典的数学难题。豆包表示，让Kimi证明一下任意大于2的偶数都可以表示为两个质数之和。这是一道尚未被完全证明的哥德巴赫猜想数学题。

豆包出的题确实有点难，于是我们换了一道高中数学题试试水。

Kimi数学版在第一问中表现不错，大约20秒就给出了答案。然而在第二问中，Kimi花了33秒，解答整道题共用了53秒。总的来说，这是一道常规题，Kimi的表现可圈可点。

在解题过程中，Kimi还使用了“然而，我们不妨换个角度思考。”和“然而，让我们再仔细审视一番。”等非常人性化的语言，并认为自己的解答“无懈可击”。

对比豆包的表现

为了进一步验证，我把这道题又扔回给豆包。豆包对自己出的题也有些头疼，花了40秒才完成。第一问的解答方法与Kimi无出二致，但在第二问中，豆包给出的答案却有些问题。

经过人类审查，Kimi和豆包的解法似乎都有些问题。第一小问没有争议，但在第二小问中，Kimi的解题思路没有问题，需要先解出m和k的关系。然而，Kimi在选择定点时犯了一个低级错误，取了(h, k)，其中k是直线斜率，应该换成其他字母，比如(h, h1)。这个错误导致后续的推理出现问题。

豆包在最后一步的整理过程中，当x=0时，忽略了等式中k的存在，得出了y = ±√(4/3)的小编建议。实际上，y的值会随着k的变化而变化，因此不存在定点。豆包也被自己出的题难倒了。

数学与AI的发展

数学一直是解开宇宙万物本源的重要工具。从早期人类的结绳计数到算盘的发明，再到计算机的出现，人类的数学能力一直在以指数级提升。如今，这一重任交到了AI手上。

Kimi数学版发布时，月之暗面创始人杨植麟在接受采访时曾表示：“如果说长文本是月之暗面登月的第一步，那么提升模型深度推理能力则是第二步。”这句话反映了AI圈对Scaling laws的重新思考。曾经，人们相信“大力出奇迹”，随着模型规模、训练数据和计算资源的增加，模型性能会显著提升。但随着算力扩展到一定规模，继续增加算力已难以直接提升模型质量。

从Claude推出更高效的小模型开始，各大模型厂商纷纷转向寻找有效的方法来Scale。这意味着，单纯增加算力已不再能带来显著提升，需要通过算法的改变来释放Scaling的潜力。月之暗面选择了强化学习的方法和思维链（Chain of Thought，简称COT）技术，Kimi数学版正是这一技术的成果。这项技术使模型能够像人类一样进行逻辑推理和思考，从而在多个数学基准测试中超越了主流AI模型。