Kimi和豆包,谁解对了这道数学题?,12月16日,Kimi的意外变化
12月16日,Kimi的意外变化
12月16日下午,我像往常一样使用Kimi,突然发现Kimi数学版的和蔼小眼镜logo的眼镜框变大了。鼠标移过去一看,“Kimi数学版”已经正式改名为“Kimi视觉思考版”。这让我想起上周为Kimi数学版写的测评文章。
Kimi数学版的初印象
11月26日下午,Kimi上线了k0-math模型驱动的Kimi数学版。官方的宣传非常简洁,只有3张图:主题、入口和能力测评。Kimi用数据说话,直接对标了ChatGPT的o1-mini模型,主打“人狠话不多”的风格。
为了吸引更多的用户,官方还提供了一些玩法建议:“听说Kimi数学版不仅擅长数学,还能像《生活大爆炸》里的Sheldon一样,用理科思维解释生活中的各种现象。你还可以让它陪你玩24点游戏。”
由于我的数学知识早已还给老师,数学水平和急需AI提升教育属性从而辅导孩子做作业的家长差不多,所以我决定验证一下Kimi在数学题上的表现。这篇测评经历了一些波折,尚未发表。Kimi改版后,测评虽然成了明日黄花,但也给了我审视两个版本Kimi差别的机会。
测评Kimi数学版
为了测试Kimi的数学能力,我决定用AI给AI出题,看看Kimi的表现如何。
1.我让豆包帮我出一道经典的数学难题。豆包表示,让Kimi证明一下任意大于2的偶数都可以表示为两个质数之和。这是一道尚未被完全证明的哥德巴赫猜想数学题。
豆包出的题确实有点难,于是我们换了一道高中数学题试试水。
Kimi数学版在第一问中表现不错,大约20秒就给出了答案。然而在第二问中,Kimi花了33秒,解答整道题共用了53秒。总的来说,这是一道常规题,Kimi的表现可圈可点。
在解题过程中,Kimi还使用了“然而,我们不妨换个角度思考。”和“然而,让我们再仔细审视一番。”等非常人性化的语言,并认为自己的解答“无懈可击”。
对比豆包的表现
为了进一步验证,我把这道题又扔回给豆包。豆包对自己出的题也有些头疼,花了40秒才完成。第一问的解答方法与Kimi无出二致,但在第二问中,豆包给出的答案却有些问题。
经过人类审查,Kimi和豆包的解法似乎都有些问题。第一小问没有争议,但在第二小问中,Kimi的解题思路没有问题,需要先解出m和k的关系。然而,Kimi在选择定点时犯了一个低级错误,取了(h, k),其中k是直线斜率,应该换成其他字母,比如(h, h1)。这个错误导致后续的推理出现问题。
豆包在最后一步的整理过程中,当x=0时,忽略了等式中k的存在,得出了y = ±√(4/3)的小编建议。实际上,y的值会随着k的变化而变化,因此不存在定点。豆包也被自己出的题难倒了。
数学与AI的发展
数学一直是解开宇宙万物本源的重要工具。从早期人类的结绳计数到算盘的发明,再到计算机的出现,人类的数学能力一直在以指数级提升。如今,这一重任交到了AI手上。
Kimi数学版发布时,月之暗面创始人杨植麟在接受采访时曾表示:“如果说长文本是月之暗面登月的第一步,那么提升模型深度推理能力则是第二步。”这句话反映了AI圈对Scaling laws的重新思考。曾经,人们相信“大力出奇迹”,随着模型规模、训练数据和计算资源的增加,模型性能会显著提升。但随着算力扩展到一定规模,继续增加算力已难以直接提升模型质量。
从Claude推出更高效的小模型开始,各大模型厂商纷纷转向寻找有效的方法来Scale。这意味着,单纯增加算力已不再能带来显著提升,需要通过算法的改变来释放Scaling的潜力。月之暗面选择了强化学习的方法和思维链(Chain of Thought,简称COT)技术,Kimi数学版正是这一技术的成果。这项技术使模型能够像人类一样进行逻辑推理和思考,从而在多个数学基准测试中超越了主流AI模型。
Kimi视觉思考版的表现
今天,我找到了历史记录,把之前Kimi解析的LaTeX格式数学题发给了Kimi视觉思考版。对于第一小问,Kimi给出了如下解答。
1.Kimi的数学公式符号更加完善了,还增加了验算步骤。这次Kimi的解题过程耗时4分半钟,并且在3分10秒左右时,Kimi经过了一个大大的停顿,似乎因为聊天篇幅所限,“断了”。
上周测评时我曾写道:“但从以上解题过程来看,‘像人类一样进行逻辑推理和思考’似乎只停留在表面,这一宏伟构想还有很长的路要走。”从本周发布的Kimi视觉思考版来看,它似乎变得更加“人类化”了,会说“我觉得我之前的展开可能有误”,还会说“等等,还有一个想法”。
更重要的是,Kimi的推演在这里中断了,可能是由于之前的推演篇幅过长,Chat的容量还需要调试。
我们先来看看接下来的解题步骤。内容还挺硬核,上次测评时我请了一位数学朋友帮忙审查,人类的解题思路在上文中已经展示。
这一次,把评分交给你们。看到这里,你会想给Kimi点个赞吗?
如果你有观点、想法或想看的测评,欢迎和我交流。如果你喜欢这期内容,别忘了一键三连,因为这也是我探索更新的动力,我们下期再见~。