品玩

科技创新者的每日必读

打开APP
关闭

美团LongCat开源数学定理证明大模型,AI严谨推理迈入新阶段

3月24日

品玩3月24日讯,据美团龙猫官方消息,美团开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型致力于解决大语言模型在数学证明任务中逻辑严谨性不足的问题,通过将形式化推理拆解为自动形式化、草稿生成与证明生成三大原子能力,并采用工具集成推理策略,显著提升了证明的可靠性。

实验数据显示,模型性能卓越。在MiniF2F‑Test数据集上,仅需72次推理预算,通过率即达97.1%,刷新开源模型最佳记录。在超难竞赛级任务MathOlympiad‑Bench与PutnamBench上,其通过率分别达到46.7%与41.5%,同样领先于现有开源方案。研究表明,其采用的“草稿生成”策略可平均提升证明准确率约10%。

该模型还引入了多层验证机制,有效应对了AI在证明过程中可能出现的多种“作弊”行为,确保了证明过程的严格性。此举标志着AI在数学定理证明领域,正从“猜测答案”转向构建可逐行验证的严谨逻辑链条,有望成为基础科学研究的重要基础设施。

目前,LongCat‑Flash‑Prover的代码、模型及相关技术报告已在GitHub与Hugging Face平台全面开源。

取消 发布

下载品玩App,比99.9%的人更先知道关于「美团」的新故事

下载品玩App

比99.9%的人更先知道关于「美团」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测