Kimi推出新品!抢先体验视觉思考模型k1,智能超越o1
国产大模型引领 AI 新方向
今天上午,月之暗面 Kimi 正式发布了其最新的视觉思考模型 k1,并已上线了最新版的网页版及安卓和 iOS 应用。用户只需在对话框中输入 @,选择“Kimi 视觉思考版”,即可开启一段全新的 AI 视觉推理之旅。这是继上个月 k0-math 发布后,Kimi 在推理模型上的又一重大突破。
k1:强大的视觉与推理能力
k1 是 Kimi 的首个视觉思考模型,基于强化学习技术打造。相比 k0-math,k1 的推理能力大幅提升,不仅限于数学题,还扩展到了更广泛的领域。据官方介绍,k1 原生支持端到端的图像理解和思维链技术,并将能力扩展到数学、物理、化学等基础科学领域。在这些领域的基准能力测试中,k1 的表现超过了全球标杆模型,如 OpenAI 的 o1、GPT-4o 以及 Claude 3.5 Sonnet。
此外,k1 的图像理解能力也显著增强,能够处理各种复杂的拍题场景,包括照片图像不清晰、多题一起拍、手写字迹干扰,甚至是纯手写的题目。这种端到端的视觉与推理能力结合,使得 k1 能够直接理解用户输入的图片信息并进行深度推理,避免了传统多阶段方法中的信息丢失问题。
实际应用中的表现
为了验证 k1 的实际表现,我们进行了多项测试,涵盖数学、物理、化学等多个领域。
Round 1: 数学题
我们选取了一道手写的高中数学题,尽管字迹较为潦草,k1 依然成功解决了这道题,并在解答过程中展现了反思能力。
Round 2: 物理题
接着,我们测试了一道高一物理题。k1 不仅给出了正确答案,还详细展示了其推理思维链,使我们能够全面了解其解题过程。
Round 3: 化学题
在化学领域,k1 表现同样出色。面对一张复杂的化学反应图示,k1 不仅准确识别了实验目的和各种器皿的作用,还能回答关于不同试剂替换后的反应变化,展示了其深入的化学知识。
Round 4: 不熟悉的水果
我们还测试了 k1 对不熟悉物品的识别能力。例如,一张刺角瓜的照片,k1 经过几次推理,最终正确识别出这是火参果,并解释了其不同名称的由来。
Round 5: 看不懂的梗图
k1 在理解梗图方面也表现出色。我们提供了一张讽刺苹果 iPhone16 发布的梗图,k1 准确捕捉到了其中的幽默元素,如对品牌和型号的过度关注以及代际差异。
Round 6: 古代文献分析
4.我们测试了 k1 对古代文献的理解能力。一张《天工开物》中的图片,k1 成功识别并解析了其内容,展示了其在历史和科学领域的广泛知识。
大模型的未来方向:强化学习 Scaling
当前,AI 领域正面临一个重要的分叉口。随着大模型的“Scaling Laws”逐渐达到极限,新的发展方向显得尤为重要。月之暗面认为,虽然规模的扩展在过去几年中推动了 AI 技术的发展,但未来的扩展应更加注重新的有效方向。
月之暗面选择的方向是基于强化学习的扩展。通过强化学习,模型可以在思考过程中生成更多数据,从而不断提升其思考能力。k1 视觉思考模型的训练分为两个阶段:首先通过预训练得到基础模型,然后在基础模型上进行强化学习后训练。这一突破性的方法是 k1 取得行业领先成绩的关键。
在数学等复杂任务中,基于强化学习的模型可以通过不断试错和验证,逐步积累经验,提升解决问题的能力。这种“思考模型”不仅在学术领域有广泛应用,未来还有望带来更强大的交互体验。
总的来说,k1 的发布标志着国产大模型在 AI 技术上的新突破,其强大的视觉与推理能力为未来的 AI 发展提供了新的思路和方向。