近日,海豚智能与牛津大学、剑桥大学与北京航空航天大学等合作伙伴共同发布大模型测评基准U2-Bench。这是全球首个专为大模型超声图像理解能力设计的多任务测评基准。U2-Bench 收录了7,241例来自 15 个解剖部位的病例,覆盖疾病诊断、病灶定位、报告生成等 8 大任务、50 个临床场景,以此来全面、客观、准确的评估多模态大模型在复杂超声数据上的表现。
在最新测试中,海豚智能的首个自研超声大模型Dolphin-V1在U2-Bench上综合得分(U2-Score)为0.4748,位居全球第一,远超第二名Google Gemini-2.5-Pro-Preview(0.2968),以及DeepSeek-VL2(0.2630)、GPT-4o(0.2253)等模型。其中模型在超声标准切面识别任务上表现优异,对于心脏与胎儿的标准切面识别的准确率超过85%,远超在该任务上单项排名第二的谷歌医疗大模型MedGemma的56%与29%。
海豚智能U2-Bench的构建及后续工作获得了多位科学家的大力支持和高度评价,其中包括:
雅克·苏凯院士(指导模型临床场景设计):法国国家技术科学院院士,国家高性能医疗器械创新中心影像中心首席科学家,逸超医疗董事长,世界超声领域第一次和第二次革命的推动者、引领者,飞利浦医疗前CTO。
Alison Noble院士(指导模型测评任务设计):英国皇家学会副主席,牛津大学终身教授,大英帝国司令勋章获得者,前MICCAI主席,当代超声AI界的全球领军人物。
李舟军教授(指导大模型相关思路设计):北京航空航天大学教授,全球前2%顶尖科学家。
“U2-Bench 的诞生离不开海豚智能这群富有创造力的年轻人们的努力,”,雅克·苏凯院士表示,“很高兴看到他们为超声领域带来的变革,这将成为超声AI研究的新篇章。”
Alison Noble 院士表示,“公开统一的测评基准对于超声大模型走向临床应用至关重要。”
海豚智能创始人,CEO勒安捷表示:“U2-Bench 不仅填补了医疗超声大模型领域评测的空白,更为大模型在超声领域的应用带来了更多的可能性。非常感谢雅克院士、 Alison院士和李舟军教授在这个过程中给予我们的无私帮助,以及团队伙伴们日以继夜的辛苦工作。
作为一家医学影像大模型公司,我们认为实现技术在医疗场景中的落地至关重要,这也是我们强调要将临床洞见融入到AI模型的研发流程中的关键原因。测评结果显示,我们即将在 7 月发布的Dolphin-V1.0大模型已在 U2-Bench 上超越了 Google与 DeepSeek。未来,我们将进一步推进模型的落地,继续与合作伙伴们共建临床上高效、可信的超声大模型。”