模型的能力评测不仅是技能进步的度量衡,更是推动模型迭代和优化的主要驱动力。
MedBench由上海人工智能实验室与上海市数字医学创新中央联合多家机构推出。
作为医疗领域的专业评测基准,MedBench已加入司南大模型开源开放评测体系(OpenCompass)。
自发布以来,MedBench已为387个医疗大模型供应评测。

MedBench医疗大年夜模型测评平台进级_医疗_医学 文字写作

该成果干系论文《MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models》近期已刊发于环球打算机系统领域期刊《Big Data Mining and Analytics》(中科院一区期刊,近两年均匀影响因子10.6)。

论文标题:MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models

论文链接:https://www.sciopen.com/article/10.26599/BDMA.2024.9020044

立即参与评测:https://medbench.opencompass.org.cn/home

全面升级:丰富评测办法,扩充数据

依托专业医疗机构的专家履历和知识储备,MedBench设置了医学措辞理解、医学措辞天生、医学知识问答、繁芜医学推理和医疗安全和伦理等5大维度评测维度,为推动医疗大模型的研发与运用实践供应指标参考。

近期,上海AI实验室联合团队对MedBench进行了全面升级,新增加模型API接入评测,并优化了开放性问答的评估指标,由医学专家人工标准评测“给分点”,进一步确保评测结果的专业性和公道性。

同时,MedBench的评测数据集、评测方法以及系统功能方面也迎来扩充及升级,供应更为丰富、真实的医疗实践场景。

动态评估:提升评测准确性

MedBench集纳了约30万道中文医疗专业测评题目,席卷医学考试、医学问答、患者做事、医学问诊、病历剖析、病历天生和赞助诊断等场景数据,覆盖多个临床科室。

为了对医疗大模型的能力进行全面评估,MedBench包含5个评估维度:医学措辞理解、医学措辞天生、医学知识问答、繁芜医学推理以及医疗安全和伦理。
评测过程采取全自动化、云根本架构,有效办理标准化和答案透露问题。
通过动态评估机制,将选项循环打乱和随机提示匹配,显著提高评估的科学性和准确性。

开放共享:推动专业互认体系培植

自发布以来,MedBench即面向环球开放,与各界共同推进医疗大措辞模型全面、专业、互认的评测体系培植。
自发布以来,MedBench已为387个医疗大模型供应了能力指标和提升方向参考。

目前,上海交通大学医学院附属瑞金医院、上海交通大学医学院附属新华医院、四川大学华西医院、广州实验室、上海交通大学、复旦大学、华东理工大学、同济大学、喷鼻香港中文大学(深圳)、上海市卫生康健统计中央、华东师范大学等机构陆续加入平台共建序列,汇聚行业履历,助力医疗聪慧化转型。

基于医疗大模型评测领域的积累和实践,上海AI实验室与上海市卫生康健统计中央联合支持《第二届全国数字康健创新运用大赛》干系成果评估事情,加速人工智能与医疗的交叉研究与协同创新。