【算法合规编译系列】NIST发布可解释AI的四项原则

Original 祁辉莹网络法理论与实务前沿 2023-11-28

【编者按】

人工智能技术虚实结合、嵌入广泛，加剧了信息不对称，致使立法和治理决策缺乏有效参考点。人工智能治理范式不可避免地从单一的以国家为中心、以命令和控制为核心的“硬法”模式向基于多中心主体参与的，以协同性、动态性、分层性、复合型为特征的“软法”治理体系转变。在人工智能“软法”治理的工具箱中，人工智能技术标准和指引成为体现全球共识的重要抓手。美国国家标准与技术研究院(NIST)在执行第13859号行政命令部署联邦政府对人工智能系统开发和部署标准化的优先需求时建立了公开、透明、包容、敏捷的协调统筹机制并出台了一系列标准性和指南性文件。本次编译的是NIST出台的有关人工智能的解释原则和评估体系的指南性文件，里面提出了四项解释原则，并提出了评估可解释AI算法的规则体系。

目

●

录

可解释人工智能的四项原则

1. 引言

2. 可解释AI的四项原则

2.1 解释原则

2.2 有意义原则

2.3 解释准确性原则

2.4 知识局限性原则

2.5 总结

3. 解释的目的和方式

4. 可解释AI的风险管理

5. 概述各文献中可解释AI的原则

6. 概述可解释AI的算法

6.1 自解释模型

6.2 事后解释

6.2.1 局部解释

6.2.2 全局解释

6.3 可解释性的对抗性攻击

7. 评估可解释AI的算法

7.1 对有意义原则的评估

7.2 对解释准确性原则的评估

8. 人类作为可解释AI的对照组

8.1 解释原则

8.2 有意义原则

8.3 解释准确性原则

8.4 知识局限性原则

9. 讨论与结论

AI界正在将可解释性（explainability）作为可信AI系统（trustworthy AI systems）的许多理想特征之一。在与AI界的合作过程中，NIST已经确定了其他技术特征来培养人们对AI的信任，这些特征包括准确、隐私、可靠、鲁棒性、安全、韧性、减少有害的偏见、透明、公平和问责制。可解释性和其他特征在AI生命周期的各个阶段相互作用。虽然所有特征都很重要，但本文只关注可解释AI系统（explainable AI systems）的原则。

在本文中，NIST以需要解释的人为核心，提出了可解释AI系统的四项原则，即解释原则、有意义原则、解释准确性原则和知识局限性原则。这些原则构成了可解释AI系统的基本要素。监管者与法律规定、AI系统的质量控制、客户关系和手头的任务都会影响解释的类型。但是，NIST提出的这四项原则适用于任何情况，并且有助于衡量解释的质量。

1. 可解释AI的四项原则

解释原则（Explanation）是指，系统应该为其输出和/或程序提供或包含相应的证据或理由。就其本身而言，解释原则与解释是否正确、是否提供有用信息、是否可理解无关。该原则本身并不包括任何衡量质量的标准。

有意义原则（Meaningful）是指，系统应该提供目标受众可以理解的解释。以下因素会影响解释的可理解性：（1）解释方式，比如说明系统为什么做出某种行为比描述它为什么不做某种行为更容易理解；（2）目标受众，一个人先前的知识和经验以及人群之间的整体心理差异都会影响个人对解释的看法；（3）解释目的，不同的场景和需求会影响什么样的解释是重要和有用的。

解释准确性原则（Explanation Accuracy）是指，解释准确地反映了系统产生输出的理由和/或过程。解释的准确性与决策的准确性不同。决策的准确性是指系统的判断是正确的还是错误的。无论系统的决策准确性如何，相应的解释可能会也可能不会准确描述系统是如何得出结论或行动的。另外，解释准确性的指标具有灵活性。一个详细的解释可能准确地反映了系统的处理过程，但却牺牲了它对某些受众的有用性和可及性。同样地，一个简要的解释可能非常容易理解，但却无法完全描述系统的特征。

知识局限性原则（Knowledge Limits）是指，系统仅在其设计条件下，对其输出达到足够置信度时才能运行。通过识别和宣布知识界限，可以保障系统在可能不合适的情况下不提供答案，从而防止误导性的、危险的或不公正的输出。

一个可解释AI系统首先必须提供一个解释或包含可以访问的相应证据，其余三个原则是这些解释的基本特性。可以用下图表示：

图1 可解释算法的四原则

2. 解释的范围和类型

NIST用两个特性来说明解释的广泛性：目的和风格。目的是指一个人要求解释的理由或者这个解释打算回答的问题。风格是指解释的传达方式。受众将强烈影响解释的目的和提供的信息，解释的目的将反过来影响其风格。本文介绍了影响风格的三种要素，每一种要素都需要被考虑，从而产生能够实现其目的并符合四项原则的解释。

第一，详细程度，它是一个从略到详的范围。

第二，人机交互程度，它可以分为三类：陈述性解释、单向互动和双向互动。在陈述性解释中，系统仅仅提供了一个解释，而人机之间没有互动。这是目前最普遍的做法。单向互动是一种更高程度的互动，系统可以根据输入的指令或问题来决定解释的形式。它允许消费者进一步探究或提出不同指令。最深层次的互动类别是双向互动，类似于人与人之间的对话模式，人可以进一步探究，而机器也可以回探，请求澄清问题，或提供新的探索途径。

图2 人机交互程度

第三，格式，包括可视化和图形、语言（书面或语音）、听觉或视觉警报。

这些不同的目的、风格和考量说明了解释的范围和类型，从而说明需要灵活处理可解释AI系统。NIST提出的四项原则鼓励采取不同的风格来适应不同的情况，设计者需要在不同目标之间进行权衡。

3. 可解释AI的风险管理

风险是指目标不确定性的影响，包括消极结果（威胁）和积极结果（机会）。风险管理是一个过程，可以用来定义、评估和减少风险。这节概述了可解释AI带来的风险，尤其是在不符合四原则的情况下可能造成的威胁。

可解释AI为系统引入了新的机会和威胁。解释可以让人更深入地了解系统从而增加信任，但也可能会因为暴露了系统的内部运作而暴露其知识产权或系统漏洞。一个没有意义的解释（即不符合有意义原则）有可能被忽视或不被承认为解释。一个相关的潜在风险通常被称为模型风险（model risk），即由一个无效的或错误应用的模型所产生的潜在负面结果。它的一个来源是模型中存在潜在错误从而导致错误的输出（即不符合解释正确性原则），另一个来源是不正确地使用模型或超出其知识界限（即不符合知识局限性原则）。

结果是威胁还是机会，有时取决于受众，风险管理需要考虑各种因素的权衡和可能性。人们通常从风险的可能性和影响两方面评估风险。总之，需要制定一个AI风险管理框架。

4. 人类的解释如何遵循四项原则

（1）解释原则。人类能够产生各种各样的解释类型。然而研究表明，人类在下意识和不明言的情况下做出判断和决策往往更加准确，干扰这种封闭的过程会损害决策的准确性。

（2）有意义原则。NIST的关注点在于受众是否与提供解释的人能够得出相同的结论，以及受众是否基于解释而同意彼此的结论。由于面对的问题不同、驱动观点形成的背景不同以及存在个体差异，人们预期的解释类型可能不同。因此，解释是否有意义因环境和人而异。

（3）解释准确性原则。这一原则是指，对一个人决策过程的解释真实地反映了该决策背后的心理过程。有充分证据表明，尽管人们经常报告其推理过程，但这并不能可靠地反映出正确或有意义的认知过程。这被称为“内省错觉”（introspection illusion）。

（4）知识局限性原则。问题的关键在于，人类是否能正确评估自己的能力和准确性。NIST提出了两种测试方法，一种方法要求参与者预测与他人相比自己在某项任务上的表现会有多好；另一种方法是衡量他们的信心，信心越高表明一个人越有可能相信自己是正确的。当要求人们明确预测或估计他们相对于其他人的能力水平时，他们往往是不准确的。然而，当要求人们评估对某一决策或判断的信心时，他们可以在高于偶然的水平上衡量其准确性。这表明人们确实能够洞察自己的知识局限性，但是这种洞察力在某些情况下可能是有限的或薄弱的。

总之，可解释AI的焦点问题是提高系统的能力，从而提供高质量的解释。随着可解释AI的进步，我们可能会发现AI系统的某些部分能够比人类更好地满足社会期望和目标。通过了解人机协作中AI系统和人类的可解释性，有助于探索融各自优势的工具，从而有可能超越人类或AI系统各自的能力进一步提高可解释性。

附录：NIST回顾了当前可解释AI的算法及其评估方法。

附录1：可解释AI的算法

附录2：可解释AI的算法的评估方法

【编译者】

祁辉莹

对外经济贸易大学法学院2021级法律硕士

【编辑】宋佳钰，对外经济贸易大学法学院2021级法律硕士

【指导教师】张欣，对外经济贸易大学数字经济与法律创新研究中心执行主任

✦^✦

算法合规编译系列

【算法合规编译系列】如何识别和管理算法偏见？

【算法合规编译系列】如何对人工智能系统分级分类？

【算法合规编译系列】算法解释合规的落地方案

继续滑动看下一个

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

【算法合规编译系列】NIST发布可解释AI的四项原则

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

【算法合规编译系列】NIST发布可解释AI的四项原则

您可能也对以下帖子感兴趣