品玩

科技创新者的每日必读

打开APP
关闭

OpenAI 发布AI 健康系统基础评测体系 HealthBench

23小时前

品玩5月14日讯,据 ZDNet 报道,OpenAI 近日推出AI 健康系统评估标准HealthBench,用户可以用这套体系评测大模型的“医疗水准”。

OpenAI 表示,HealthBench 是与 262 名在 60 个国家执业的医生合作建立的,其中包括 5000 个真实的健康对话,每个对话都有一个由医生自定义的评分标准,用于对模型的反应进行评分。此外该标准包含 48562 个独特的评分标准,广泛涵盖了模型性能的特定方面。

利用这套体系,OpenAI对多款大模型产品进行了评测,包括自己的 O3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet。表现最好的是 OpenAI 自家的 o3 模型,拿下最高分并位列第一,Grok 3 和 Gemini 2.5 Pro 分别排名第二和第三

取消 发布

下载品玩App,比99.9%的人更先知道关于「OpenAI」的新故事

下载品玩App

比99.9%的人更先知道关于「OpenAI」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测