近年来,研究人员一直试图通过开发能够解释他们的行为和行为的算法来使人工智能(A I)更加透明,因为这可以鼓励对机器的更大信任,并增强人与人工智能的相互作用.. 尽管他们做出了努力,但迄今很少有研究明确地评估人工智能解释对涉及人类-人工智能协作的任务所取得绩效的影响。
为了解决现有文献中的这一差距,SRI国际的一个研究团队创建了一个由流行游戏20问题(20Q)启发的人-AI图像猜测游戏,该游戏可用于评估机器解释的有用性。 他们的论文最近发表在ar Xiv上,是第一批探索开发更多“可探索”人工智能的效果的论文之一。
进行这项研究的SRI国际计算机科学家Arijit Ray告诉Tech Xolore说:“这个想法是在我们进行DARPA项目时提出的。” “在这个项目中,我们正在开发可解释的人工智能系统,它不仅产生所需的产出(例如。 对象检测、问题答案等) 但也解释了他们是如何达到这一产出的。 我们需要一个机制来评估AIS提供的额外解释是否对用户更好地理解人工智能系统有用。 为此,我们创建了一个交互式的人工智能协作任务,解释辅助猜测哪(ExAG),这是著名的20Q游戏的改编,以证明我们正在开发的各种机器解释技术的有效性。”
雷和他的同事开发的图像猜测游戏非常类似于流行的游戏20问题,通常涉及两个玩家。 在20Q,一个玩家思考某件事,第二个玩家试图通过问20个封闭的问题来猜测它是什么(即只能用“是”或“否”回答的问题)。
在ExAG中,雷和他的同事设计的游戏的改编,一个用户被显示了五幅图像,其中一幅被人工智能系统选择为“秘密图像”。 从本质上讲,用户需要通过询问自然语言中的问题,找出他/她看到的图片中的哪一幅是“秘密图像”。
与传统的20Q游戏不同,在ExAG中,人类用户可以同时提出封闭和开放式的问题。 例如,他们可以问‘图像中有什么?’‘图像被带到哪里了?’ 等等。 人工智能系统每次回答一个用户的问题,并可以选择性地解释其答案。
根据这些答案,用户将尝试猜测人工智能最初选择的图像。 游戏的总体目标是通过尽可能少的问题来正确识别“秘密形象”。
雷解释说:“人工智能系统提供了视觉和文本两种解释模式。” “对于视觉解释,人工智能系统生成热图,突出显示支持其答案的区域。 例如,如果用户询问图像中的内容,并且它看起来像一只狗,人工智能将突出显示狗区域,并说这就是导致答案“它是一只狗”的原因。 对于文本解释,另一方面,AI系统为每个图像提供相关问题的答案。 因此,如果你问一个人在做什么,答案是冲浪,例如,它也会回答相关的问题,比如‘我在图像中看到了什么? 冲浪者。 ”“那张照片是在哪儿拍的? 海滩。
由于图像猜测游戏的性质,人工智能提供的答案和解释的质量可以显著影响人类用户的成功和性能。 值得注意的是,目前最先进的视觉问答性能约为65%,这意味着人工智能系统生成正确答案的时间为65%。
雷和他的同事观察到,用户通常通过利用AIS解释在ExAG中取得成功,特别是当答案本身是错误的时候。 例如,如果“秘密图像”描绘了一只狗,但人工智能回答“它是一个冲浪者”,一个视觉解释可以帮助人类用户意识到人工智能的错误。 研究人员认为,这证明了他们的游戏是评估人工智能解释的帮助性的合适工具。
雷说:“在我看来,我们研究的最有趣的结果是,当人工智能的答案大多是错误的时候,用户只用几个很好的解释来赢得游戏。” 相比之下,对于答案准确性相似但没有解释的游戏,用户盲目信任人工智能生成的答案,就会失去游戏。 这就支持了对人类-人工智能协作系统甚至有几个很好的解释的重要性,特别是在人工智能系统不完善的情况下,这在目前的大多数情况下是如此。
为了更好地解释这个想法,Ray提供了自动驾驶车辆的例子.. 在过去几年里,人们对他们的安全问题进行了大量辩论,这也是由于在测试车辆时发生了事故。 雷认为,有效的人工智能解释可以鼓励人们更多地信任自动驾驶车辆的安全,因为它们将允许人类司机事先发现问题并防止事故发生。
雷说:“举个例子,假设人工智能系统在可靠地检测车道方面遇到了麻烦。” 由于道路目前是直的,没有额外的信息,用户将无法判断人工智能是否失败。 即使他/她有一些疑问,他/她可能不会做任何事情,直到最后一刻,当汽车不得不转弯,不,和崩溃,这将太晚。 相反,如果车上的屏幕显示了人工智能如何感知环境的解释,例如热图,用户将能够告诉人工智能的潜在故障,并提前控制车轮。
研究人员发现,有用的解释积极影响了人类用户在图像猜测游戏中的表现。 他们的研究结果表明,至少有一个“正确”的解释是很有帮助的,特别是在人工智能对用户问题的回答是“吵闹”或定义不明确的情况下。 有趣的是,玩家倾向于解释而不是答案,并且常常将人工智能解释评为“有益”。
参与这项研究的SRI国际高级技术经理YiYao告诉Tech Xplore说:“我认为,虽然有几行工作试图为人工智能系统的结果或行动提供解释,但我们的研究是第一次引入人工和机器协作任务来评估人工智能解释的有效性;因此,它带来了许多关于人工智能解释如何增强人与机器人之间的相互作用的洞察力。
雷和他的同事进行的研究是第一个提供人工智能解释有用性的有形证据的研究之一。 研究人员希望他们的研究最终将为人工智能系统的发展提供信息,这些系统可以在社会上理性地行动,从而更好地与人类联系和联系。
雷认为,能够清楚地解释其行动背后的推理和过程的人工智能系统将是智能机器发展的一个重要步骤。 通过有效地回答问题并使其决定合理化,这些系统可以培养对人工智能的更大信任感,以及与其更深层次的关系。
“许多其他公司、团体和研究小组一直在讨论可解释的人工智能问题,并就如何扩大现有人工智能模型和系统以向用户提供解释提出了许多建议,”SRI国际高级计算机科学家、DARPA研究的首席调查员Gedrius Burachas说,该研究导致了猜测游戏的发展。 “虽然提出了许多想法,但缺乏这些想法奏效的证据,因此我们研究的一个有力方面是,它提供了无可争辩的证据,证明某些类型的解释确实非常有效地改善了与人工智能系统的合作,但也建立了对它们的信任。
到目前为止,Ray和他的同事的工作主要集中在视觉问题回答(VQA)任务上,用户在这些任务中询问有关图像的问题和AI答案。 他们现在正计划继续研究人工智能解释技术,将这些技术应用于更广泛的人工智能任务。
「我们亦会继续发展协议,以更细粒度(例如: 在什么情况下,什么解释更有效?) 并从不同的角度(例如。 解释是否有助于用户建立心理模型? ”雷说。 “为了结束循环,我们将利用从这些评价中吸取的经验教训,制定更有效的解释方法。 我们认为,可解释人工智能的圣杯是设计解释,不仅告知用户,而且通过提高其推理能力来提高机器性能。
因此,除了探讨人工智能解释对人类用户的性能和感知的影响外,研究人员还想调查它们对人工智能系统本身的影响。 他们认为人工智能解释也可以使人工智能系统本质上更好,因为它们将逐渐获得推理和合理化技能。