nh1

人工智能的答案可信吗?布斯研究团队让AI“学会”表达不确定性!

栏目:行业   作者:肥义    发布时间:2025-06-20 10:14   阅读量:14375   会员投稿

人工智能模型的回答究竟靠不靠谱?它们有时看起来言之凿凿,实际上却未必准确。芝加哥大学布斯商学院教授Veronika Ročková、研究员Jungeum Kim和芝加哥大学博士生Sean O'Hagan为AI的输出内容建立了一个可信度测量系统,帮助用户判断哪些回答值得信赖,哪些回答需要谨慎对待。

https://img2.danews.cc/upload/images/20250620/77cd95c32b2752c4b3481f53abc85991.png

假设你刚囤了一打价格不菲的高品质猫罐头,可你的爱猫却突然拒食。你向ChatGPT寻求可能的原因,它或许会列出五种解释;但如果你稍微调整提问方式,系统给出的答案却可能大相径庭。这种回答的不稳定性引出了一个核心问题:我们该如何判断人工智能的推测是否可信?

芝加哥大学布斯商学院教授Veronika Ročková、研究员Jungeum Kim和芝加哥大学博士生Sean O'Hagan共同开发出一种名为"适配树"(conformal tree)的新方法,用于量化并呈现AI系统对自身回答的“确定性”。这项突破有望帮助用户辨别何时该选择信任AI的推测,何时需要保持慎重。

https://img2.danews.cc/upload/images/20250620/74fa0ceebfcb998aa3289c87f80f6710.png

 

“黑箱”中的“自信”从何而来

ChatGPT、Deepseek这类现代AI系统就如同“黑箱”,我们作为用户能够看到输入与输出的内容(即问题和答案),却无从窥探它们庞大的训练数据和内部算法。这种不透明性使得我们难以判断AI的可信度。

研究者打了个比方:这就像是在向一位非常博学却无法解释知识来源的朋友求教。有时对方无比笃定,有时却只是推测,但你却无法分辨当下属于哪种情况。而对于AI,用户更不可能通过翻查它们的训练数据来验证答案的可靠性。

 为AI装上“可信度仪表盘”

研究团队设计了一个“包裹式”系统,如同在AI外部加装了一个智能仪表,利用与特定问题相关的小型专用数据集,来衡量AI预测中的不确定性。

一般来说,专用数据集常用于微调AI模型,以提升其在特定任务中的表现,而相比之下,本研究的创新则在于将数据集用于校准,而非训练。研究团队采用一个包含了问题标准答案的数据集,系统会比照AI输出结果与正确答案之间的偏差,并将特性相似的提问归类,从而识别哪些类型的问题中,AI的表现相对稳定。

针对每一个新问题,系统都会生成一组可能的答案,并根据新问题所属的类别灵活调整答案数量。随后,系统会根据AI的历史表现,来推断其当前预测结果的不确定性。如果AI在该类问题中表现稳定,系统就会提供更少、更精确的答案选项;反之,如果AI在相似问题中频繁出错,系统则会扩大答案范围,以反映更高的不确定性,这种机制本质上是向用户传递一个重要信号:AI并不确定这个问题的答案,因此你需要考虑更多可能性。

https://img2.danews.cc/upload/images/20250620/62640298143be38bf96ad48b3f12b0d1.png

系统提供的答案选项数量,还取决于用户提问的质量。如果问题本身的表述模糊不清,系统可能会将其归入AI预测表现较差的问题类别,从而导致系统给出更多答案选项来提示不确定性。但即便如此,该系统在大多数情况下依然能做到将正确答案包含在这些选项之中,从而在表达不确定性的同时保障结果的参考价值。

研究人员指出,"适配树"方法的关键创新在于它能根据问题特征对数据进行分组。通过这种分组,系统可以更准确地判断AI预测的可靠性,因为不同数据子集的预测一致性可能存在差异。更重要的是,该系统还能利用从校准数据集中学到的规律,来量化新问题的不确定性。

 从票选预测到医学诊断

研究人员将该方法应用于两类实际场景,并基于OpenAI的GPT-4o模型进行测试。

在第一项测试中,研究团队尝试让AI根据政治意识形态来预测一位美国立法者所属的州份。根据投票记录与Voteview数据库(一个计算和可视化美国政客立场的数据库)的评分,系统对意识形态进行了量化。测试结果证明了他们的方法行之有效:传统方法的预测范围涵盖了34个州,而“适配树”方法则将范围精确到19个州,其中就包含了正确答案——印第安纳州。

第二项测试评估了系统根据症状描述来诊断皮肤病的能力。在确保可靠性的前提下,研究团队提出的方法所输出的诊断结果选项数量更为精简。在96%的测试案例中,这种方法给出的诊断数量与传统方法相当甚至更少。更重要的是,当AI有“出现幻觉”(即生成不可靠答案)的风险时,系统会自动扩大输出范围,相当于主动亮出“风险提示”,提醒用户当前预测的不确定性较高。

该方法还能够识别出哪些症状组合下AI的诊断相对准确,以及在哪些情况下AI几乎完全不可靠。例如,当输入的症状对应的是较为常见的银屑病时,AI平均仅给出了约1.77个诊断选项。但如果症状属于较少见、特征又不明显的毛发红糠疹,系统则将所有可能的皮肤病都列了出来。Ročková说:"我们成功让ChatGPT说出了'我不知道',这是一种相当罕见的表现。"

https://img2.danews.cc/upload/images/20250620/f7a4364b9550c7ca4ea90ddbb1fbbada.png

随着AI系统日益融入我们的日常生活和决策流程,理解何时可以信任其预测变得至关重要。这项研究的实际意义远远超出了医疗诊断和政治分析领域。它为现有AI系统引入了实用的不确定性评估机制,有助于用户更理性地判断AI生成的结果,做出更明智的决策。

研究人员在论文中指出:“我们的研究并不是为了鼓励用户依赖ChatGPT进行预测,而是意在强调:如果要使用AI,就必须对其不确定性保持审慎态度。”他们表示,清晰地呈现出这些不确定性,将帮助用户更好地理解AI的能力边界和局限性。

ad