Kimi版O1实装上线,一手测试体验分享
全新视觉思考模型k1震撼发布
就在数学模型k0-math刚刚发布后不久,Kimi团队又推出了全新的视觉思考模型k1。这款模型在多项思考和推理测试中表现出色,甚至超越了OpenAI的o1。
强化学习助力图像理解和思维链技术
官方表示,k1基于强化学习技术,原生支持端到端的图像理解和思维链技术。这意味着k1不仅能够深入解析图片信息,还能进行多层次的推理,从而解锁更全面的数学能力,包括几何图形题等。
数理化基准测试表现卓越
在官方提供的数理化基准测试中,Kimi k1-preview的表现全面超越了OpenAI o1、GPT-4o、Claude 3.5 Sonnect等现有模型。以下是几个具体的测试案例:
考研数学真题
一道涉及曲面积分和高斯定理的考研数学题曾难倒了GPT-4o,但Kimi视觉思考版却能一步步详细推理,并首次给出了正确答案。模型还表示对这个答案非常有信心。
概率论问题
另一道关于外星人分裂的概率论题目,Kimi视觉思考版同样一次性做对。题目如下:
- 一个外星人来到地球后,第1天有相等的可能选择以下四件事中的一件完成:自我毁灭;分裂成两个外星人;分裂成三个外星人;什么都不做。
- 此后每天,每个外星人均会做1次选择,且彼此之间相互独立,求地球上最终没有外星人的概率。
物理题
接下来是一道大学物理中的光学题:
- 在双缝干涉实验中,波长λ=550nm的单色平行光垂直入射到缝间距a=2×10⁻⁴m的双缝上,屏到双缝的距离D=2m。求中央明纹两侧的两条第10级明纹中心的间距。
Kimi视觉思考版不仅成功回答了这个问题,还在多次验证后给出了最终答案,展现了其严谨的推理过程。
化学题(趣味)
最后是一道有趣的“化学题”:
- Candy, Happy, Bacon, Scary, Brain, House
- Which is the odd one?
- Hint: Chemistry
尽管推理过程几经曲折,Kimi视觉思考版最终还是给出了正确答案(Happy)。
基于强化学习的新一代推理模型
k1是基于强化学习技术的新一代模型,称为思考模型,真正实现了端到端的图像理解和思考能力。模型训练分为两个阶段:首先通过预训练得到基础模型,然后在基础模型上进行强化学习后训练。
k1遵循强化学习Scaling Law,在数据质量和学习效率方面做了进一步优化。与传统基于文本的推理模型相比,k1能够直接理解图片信息并进行深度推理,即使在拍摄图片模糊或手写字迹潦草的情况下,性能损失也相对较小。
应用场景广泛
除了数理化推理题,k1的应用场景也非常广泛。例如,你可以将朋友的歌单截图发给它,让k1分析这位朋友的MBTI类型。k1会先理解MBTI的概念,然后仔细分析图片中的曲目并进行分类,寻找歌手和风格之间的相似之处,最终给出一个合理的猜测。
另一个例子是,你可以将一份字迹潦草模糊的手写稿发给k1,让它帮助你识别作者和笔记内容。k1的推理过程有理有据,能够平衡矛盾特征并进行验证,确保最终答案的准确性。
未来展望
近期,国内外的大模型新进展不断涌现,Kimi的k1模型无疑为这一领域带来了新的突破。感兴趣的读者不妨亲自上手体验,看看k1是否能满足你的需求。