ChatGPT能看病吗?医生出了一百道单选题,它没及格

澎湃新闻


【资料图】

智能聊天机器人ChatGPT能代替医生问诊吗?杭州一名医生试着给它出了一套中国执业医师“考试卷”,满分100分,ChatGPT的成绩是57分,没及格。

“十大科目各选了10题,一半是基础医学知识,基本是书上有的;一半是专业实践题,需要逻辑推理。ChatGPT基础题、实践题的得分差不多,正确率都不到60%。”2月22日,浙江大学医学院附属第一医院精神卫生科医生吕海龙告诉澎湃新闻(www.thepaper.cn)。

吕海龙想到做这个实验,是因为他在科室参与一项人工智能研究,希望未来借助AI监测眼球活动等,辅助精神科临床医生诊断。ChatGPT面世后,医学界也有关于它是否能代替医生问诊的讨论,吕海龙和浙江一家媒体一起做了这项实验。

“ChatGPT是依据2021年以前的数据训练的,我从2020年临床执业医师资格考试真题库中选了100道单选题。”他告诉澎湃新闻,题目涵盖十大科目,包括生理学、医学微生物学、病理学、药理学、卫生法规、内科、外科、妇产科、儿科和心理学-精神科。

据介绍,中国执业医师考试满分600分,及格线360分。这次给ChatGPT出的“考卷”满分100分,将一道道题目发在对话框内进行。

按照吕海龙的预期,ChatGPT对一些可背诵的、书上有的基础医学知识,答题情况会比较好,一些需要诊断推理的题略逊。“但实测下来,ChatGPT基础医学知识的答题准确率是56%,和专业实践题的58%基本持平,很多书上有答案的基础题,它给了错误答案——我们猜,是不是在网站上‘学习’了错误答案?”吕海龙表示,超出预期的是,对一些条件充足、逻辑清晰的实践题,ChatGPT的准确率很高。

实践题中,ChatGPT的主要失分项是一些信息不全、症状不典型的病例判断。“如患者主诉乏力,医生可以大致预想几种可能再排除,而ChatGPT不会‘猜’,只能放弃回答。”吕海龙表示。

从学科看,ChatGPT“偏科”比较严重:内科题的准确率最低,只有20%;医学微生物学、病理学、儿科、心理学-精神科这几个科目的准确率达到70%。

不过,吕海龙仍看好ChatGPT未来在医学领域的应用,“完善数据库后,如果ChatGPT能做到对基础医学类知识100%正确,在患者有科普需求时准确作出专业知识回答,或是成为医生的助手,也是很有意义的。”

[责任编辑:]