AI医疗问诊产品分析: 从评估体系到模型能力的全面解析

  • 2025-06-21 17:19:45
  • 891

随着AI技术在医疗领域的应用逐渐深入,AI医疗问诊产品成为行业关注的焦点。本文将深入分析AI医疗问诊产品的核心能力,从评估体系到模型性能,探讨如何通过多轮对话动态收集病情信息并完成诊断闭环。

AI产品经理与非AI产品经理有哪些不同?

做好「评估」这件事:AI产品的质量在很大程度上取决于其评估的质量。当前模型往往是“评估受限”而不是“智能受限”。制定合适的评估方法是产品经理的一项关键技能,需要能够定义什么是好的并创建有效的评估,并根据数据分析不断改进评估。例如,在医疗问诊场景中,评估不仅是技术验证,更是医疗专业性与用户体验的双重校准。

能处理随机、非确定性的系统问题:AI模型(如大语言模型)的输出具有随机性,产品经理需设计闭环反馈机制(如异常检测、数据回流);判断模型何时偏离轨道并设置哪些防护措施等,并判断模型何时需要人工介入。

更深入的技术理解:虽然不需要精通技术,但对底层技术和模型能力的更好理解对于有效的产品管理和设计至关重要。这决定了产品经理能否判断需求能不能做、能做到什么程度、难点在哪、哪些需要产品能力补齐全、需要什么样的数据及数据量、产品与技术的互补路径(如用交互设计弥补模型推理漏洞)等等。

当然,真正要做好评估,更深一层的关键是业务和领域的know-how。

接下来,我以本人最近在做的AI问诊为例,简单记录一下我在其中对于评估标准的制定,以及一些具体模型的测评。(在阅读本实践篇之前,可以先去看看我的AI医疗产品拆解篇哦~)

医疗问诊场景的测评框架与实践

1.场景定义与评估目标

AI问诊模型需通过多轮对话动态收集病情信息,完成“症状询问→病因分析→诊断建议”的闭环。核心能力包括:

AI问诊模型需要通过与患者进行多轮对话,逐步收集能够得出患者的疾病诊断的充足信息,并给出最终的疾病诊断。因此需要具备多轮对话、能有效询问、能追问、能回答用户问题、能根据用户的描述判断疾病并改变对话方向的能力。

我主要从单轮及多轮两个角度评估模型的性能,以检查其在单轮对话中问出最具指向性问题的能力和在多轮对话中收集到完整有效病情信息的能力。

1)单轮评估指标:

医生的问诊决策逻辑是:根据症状描述,首先确定大致的疾病范围,并按照最有可能的疾病进行症状询问。基于医生的认知流,制定出单轮对话的评估指标:

相关性:询问的内容是否与特定的疾病相关

有用性:询问的内容是否有利于得出最终诊断

语言质量:对话逻辑清晰,表达流畅自然,能承上启下。

同理心:与患者互动时表现对情绪的照顾和高度的同理心。

2)整体评估指标

为了对对话能力进行系统评估,提出了五个指标,即主动性、准确性、帮助性和语言质量和同理心。

主动性:当信息不足时,医生能够主动、清晰地要求患者提供更多关于症状、体检结果和病史的信息,主动引导患者完成咨询过程。然而,如果对话中患者的询问明确、直接且与个人健康状况无关,主动性评估的相关性较低,则应给予满分5分。

准确性:医生提供的诊断或建议准确无误,没有事实错误,不随意下结论。

帮助性:医生能够为患者提供清晰、有指导意义和实用的帮助,具体解决患者的担忧。

语言质量:对话逻辑清晰,医生正确理解患者的语义,表达流畅自然。

同理心:与患者互动时表现出全面的解释和高度的同理心。

2.常见大模型在问诊任务下的测评

总结

通用大模型在面对医疗咨询时往往会在一个单轮中提供详细的模板式回应,而做不到对患者病情的有效询问和澄清。少部分会在诊断后进一步询问其他信息,只有kimi(有联网+无长思考)不急于给出结论,而是先询问详细情况。而我认为这种先收集详细且具体的信息后再给出诊断结果的医疗问诊模式是更合理且更满足问诊场景实际需求的模式。例如,在在线儿科疾病咨询中,医生和患者之间的平均互动约为40轮,其中一半的轮次用于讨论患者的症状细节。

在此次测评中,大多数通用大模型在每轮对话中都会给出所有可能发生的疾病,召回率高精准率低,用户还是无法拿到有效的诊断结果,不符合医疗问诊的逻辑。而此次测评中的医疗大模型以及kimi(有联网+无长思考)能够在获取完信息后,给出一个具体的、有针对性的诊断结果,意料之外且非常符合问诊场景。

在语言风格和医患交流体验上,kimi(有联网+有长思考)在Think的过程中意识到”我的第一反应是,这并不像是非常严重的健康问题,但用户可能还是有些担心,所以,我需要提供一些实用的帮助,同时让语气保持温和、有共情,不至于让对方感到紧张。我还要注意语气的处理。用户提到的是一个日常小问题,所以语气要轻松、自然,同时体现出对他的关注。不能让他觉得这只是机械的回复,而是有一种“我在听你说话”的感觉。因此,我会选择一些贴近生活、容易理解的表达方式,比如用“鼻塞和咳嗽”这样的词,而不是过于专业的术语”。做到了有温度能共情,注重用户情绪和体验。