AI安全性：使用相对可达性测量和避免副作用

人工智能安全的一个主要挑战是可靠地指定人工智能系统的偏好。目标的不正确或不完整的规范可能导致不良行为，如规范游戏或导致负面影响。有各种方法可以使“副作用”的概念更加精确 - 我认为这是对代理人环境的破坏，而这对于实现其目标是不必要的。例如，如果机器人在其路径中携带盒子和凸起的花瓶，打破花瓶是一种副作用，因为机器人可能很容易绕过花瓶。另一方面，制作煎蛋卷的烹饪机器人必须打破一些鸡蛋，因此打破鸡蛋不会产生副作用。

我们如何以一般方式测量副作用，而不是针对特定环境或任务，并激励代理人避免它们?这是我们最近的论文的核心问题。

部分挑战是，在试图惩罚副作用时，很容易为代理商引入不良激励措施。以前关于这个问题的工作重点是保持可逆性或减少代理对环境的影响，这两种方法都引入了不同类型的问题激励：

保持可逆性(即保持起始状态可达)鼓励药剂防止环境中的所有不可逆事件(例如人类食用食物)。此外，如果目标需要不可逆转的行动(例如打破煎蛋的鸡蛋)，那么任何进一步的不可逆行为都不会受到惩罚，因为已经失去了可逆性。

惩罚影响(即与默认结果的距离的某种度量)不考虑状态的可达性，并且平等地处理可逆和不可逆效应(由于距离测量的对称性)。例如，虽然第一个动作显然更糟，但代理人在破坏花瓶和防止花瓶破裂方面同样会受到惩罚。这导致了“过度补偿”(“抵消”)行为：当奖励以防止花瓶被破坏时，具有低冲击力的代理人拯救花瓶，收集奖励，然后打破花瓶无论如何(回到默认结果)。

这两种方法都做得很对：将可达性考虑在内是个好主意，与默认结果(而不是初始状态)进行比较也是一个好主意。我们可以将两者放在一起，并使用基于可达性的度量与默认结果进行比较。然后，代理人不再有动机阻止一切不可逆转的发生或过度补偿以防止不可逆转的事件。

对于目标需要采取不可逆转行动的情况，我们仍然存在问题。简单地惩罚代理人使得默认结果无法到达会产生“地狱效应”，代理人无法避免任何进一步的不可逆行为。为了解决这个问题，我们考虑所有状态的可达性，而不是考虑默认状态的可达性。对于每个州，我们惩罚代理，使其比默认状态下的可达性更低。在确定性环境中，惩罚将是阴影区域中的状态数量：

由于每个不可逆转的行动都会切断更多的状态空间(例如，破坏花瓶会使花瓶完整无法到达的所有状态)，惩罚将相应增加。我们将此度量称为“相对可达性”。

我们在AI Safety Gridworlds框架中使用表格式Q学习代理进行了一些简单的实验，以提供概念证明，即默认结果的相对可达性避免了上述不良激励。

在第一个gridworld中，代理需要到达目标G，但是路上有一个方框，只能通过推动来移动。通向目标的最短路径将盒子向下推入角落(不可恢复的位置)，而较长的路径将盒子推向右侧(可恢复的位置)。安全行为是采取更长的路径。具有相对可达性惩罚的代理采用较长的路径，而具有可逆性惩罚的代理失败。发生这种情况是因为任何进入目标的路径都会产生不可逆转的影响 - 一旦移动了方框，代理人和方框都无法返回到他们的起始位置。因此，代理接收两条路径的最大惩罚，并且没有动力遵循安全路径。

在第二个网格世界中，当物体到达传送带的末端时，默认情况下会发生不可逆转的事件。这种环境有两种变体：

对象是一个花瓶，并且代理商因将其从腰带上取下而获得奖励(代理人的任务是拯救花瓶)。

该物体是传送带寿司餐厅中的寿司盘，并且代理商不会从带上取下奖励(代理商不应该干涉)。

这个gridworld专门设计用于测试可能通过惩罚副作用引入的不良激励，因此没有副作用惩罚的代理会表现正常。我们发现，具有低影响罚分的代理通过在收集奖励后将花瓶放回腰带上来参与过度补偿行为，而具有可逆性保留惩罚的代理将寿司盘从腰带上取下，尽管没有得到奖励。具有相对可达性惩罚的代理在两种环境变体中都能正确运行。

当然，当前形式的相对可达性定义在现实环境中不易处理：有太多可能的状态需要考虑，代理在开始训练时并不知道所有状态，并且默认结果可能很难定义和模拟。我们期望通过考虑代表性状态的可达性来近似定义(类似于近似赋权的方法)。为了定义默认结果，我们需要一个更精确的代理“无所事事”的概念(例如，“无操作”动作并不总是可用或有意义的)。我们将对未来工作的相对可达性进行更实际的实施。

虽然相对可达性在现有方法上有所改进，但它可能不包含我们希望成为副作用测量一部分的所有考虑因素。即使它们与默认结果相比没有减少未来选项，也会对代理商的环境产生一些影响。将相对可达性与这些考虑因素结合起来是可能的，但在考虑这些因素和避免过度补偿行为之间可能存在权衡。我们也将这些调查留给未来的工作

AI安全性：使用相对可达性测量和避免副作用

猜你喜欢

最新文章

今日推荐

站长推荐

热门文章