图片起源:Mint Images Limited/Alamy一项新研讨发明,固然进步的人工智能(AI)模子在专业医学测验中得分很高,但在经由过程与患者攀谈从而诊断疾病方面依然不迭格。1月2日,相干研讨结果宣布于《天然-医学》。美国哈佛年夜学的Pranav Rajpurkar说:“固然年夜型言语模子在测试中的表示令人印象深入,但在静态对话中,它们的正确性显明降落,尤其是难以停止开放式诊断推理。”研讨职员开辟出一种方式,基于模仿医患对话评价“临床AI”模子的推理才能。这些“患者”基于2000个医疗案例。这些案例重要来自美国医学委员会的专业测验。同样来自哈佛年夜学的Shreya Johri说:“模仿医患互动能够评价病史收罗技巧,这是临床实际的一个要害构成局部。”她表现,新的评价基准被称为CRAFT-MD,“反应了事实生涯中的情形,即患者可能不晓得哪些细节是至关主要的,只有在答复特定成绩时才会表露主要信息”。CRAFT-MD基准自身依附于AI。美国OpenAI公司的GPT-4模子在与被测试的“临床AI”的对话中表演了“患者AI”的脚色。GPT-4还经由过程将“临床AI”的诊断成果与每个病例的准确谜底停止比拟来评分。人类医学专家对这些评价停止了复核。他们还检察了对话,以检讨“患者AI”的正确性,并检查“临床AI”能否胜利网络了相干的医疗信息。多项试验标明,4种当先的年夜型言语模子——OpenAI的GPT-3.5跟GPT-4、美国Meta公司的Llama-2-7b跟法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表示远不如依据书面择要停止诊断时的表示。比方,当供给构造化的病例择要并容许从多项谜底中作出抉择时,GPT-4的诊断正确率高达82%,而不多项抉择时,其诊断正确率则降至49%以下。但是,当它不得欠亨过与模仿的患者对话停止诊断时,正确率降至26%。在这项研讨中,平日GPT-4是表示最好的模子,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。AI模子在年夜少数情形下未能网络完全的病史,比方GPT-4仅在71%的模仿患者对话中做到了这一点。即便AI模子网络了患者的相干病史,它们也并不老是可能作出准确的诊断。美国斯克利普斯研讨转化研讨所的Eric Topol表现,模仿患者对话代表了一种比医学测验“更有效”的评价AI临床推理才能的方式。Rajpurkar说,即便一个AI模子终极经由过程了这一基准,可能依据模仿的患者对话连续作出正确诊断,也并纷歧定象征着它就优于人类大夫。他指出,事实天下中的医疗实际比模仿的“更凌乱”,波及治理多名患者、与医疗团队和谐、停止身材检讨,以及懂得外地医疗情形中“庞杂的社会跟体系要素”。“AI是支撑临床任务的强盛东西,但纷歧定能代替教训丰盛的大夫的团体断定。”Rajpurkar说。(文乐乐)相干论文信息:https://doi.org/10.1038/s41591-024-03328-5