机器学习(ML)算法已经能够比他们正在为之工作的人更好地识别模式。这使他们能够在各种高风险情况下生成预测并做出决策。例如,电工使用IBM Watson的预测功能来预测客户的需求;优步的自动驾驶系统确定哪条路线能够让乘客最快到达目的地;和Insilico Medicine利用其药物发现引擎确定新药的途径。
随着数据驱动的学习系统不断发展,根据技术改进定义“成功”是很容易的,例如增加算法可以合成的数据量,从而提高其模式识别的效率。然而,要使ML系统真正成功,他们需要了解人类的价值观。更重要的是,他们需要能够权衡我们的竞争欲望和要求,了解我们最重视的结果,并采取相应的行动。
理解价值观
为了突出该种我们的ML系统已经具有竞争伦理决策,凯伊Sotala,在芬兰的研究人员对工作的基础性研究所,转变为流量分析和自动驾驶汽车。是否应该使用收费公路以减少通勤五分钟,或者为了省钱而采取更长的路线会更好吗?
回答这个问题并不像看起来那么容易。
例如,A人可能更喜欢花费5美元的收费公路,如果它可以节省5分钟,但如果花费10美元,他们可能不想走收费公路。另一方面,B人可能总是喜欢采用最短的路线,而不管价格如何,因为他们重视时间高于一切。
在这种情况下,索塔拉指出,我们最终要求ML系统确定人类更重视什么:时间或金钱。因此,对于快速采取什么样的道路来说,似乎是一个简单的问题就变成了对竞争价值的复杂分析。“有人可能会想,'好吧,行车方向只是关于效率。我会让AI系统告诉我最好的方法。但另一个人可能会觉得采用不同的方法有一定的价值,“他说。
虽然ML系统必须权衡我们的价值并在所有决策中做出权衡,但索塔拉指出,目前这不是一个问题。系统正在处理的任务非常简单,研究人员能够手动输入必要的价值信息。然而,随着AI代理人的复杂性增加,Sotala解释说他们需要能够自己解释和权衡我们的价值观。
了解基于效用的代理
在谈到整合价值观时,Sotala指出问题归结为智能代理商如何做出决策。例如,恒温器是一种反射剂。它知道何时开始加热房屋,因为设定的预定温度 - 恒温器在低于某一温度时打开加热系统,当温度超过一定温度时关闭加热系统。另一方面,基于目标的代理商根据实现特定目标做出决策。例如,目标是购买购物清单上的所有商品的代理商将继续搜索,直到找到每件商品。
基于效用的代理是基于目标的代理的一个步骤。他们可以处理以下权衡:获得牛奶比今天换新鞋更重要。然而,我离杂货店比鞋店更近,两家商店即将关闭。我更有可能及时获得鞋子而不是牛奶。“在每个决策点,基于目标的代理商都会看到他们必须选择的一些选项。每个选项都与特定的“效用”或奖励相关联。为了实现目标,代理商遵循最大化总奖励的决策路径。
从技术角度来看,基于效用的代理依靠“效用函数”来做出决策。这些是系统用于合成数据,平衡变量和最大化奖励的公式。最终,给予最多回报的决策路径是系统被教导选择以完成其任务的决策路径。
虽然这些实用程序擅长于查找模式和响应奖励,但Sotala声称当前基于效用的代理程序假设一组固定的优先级。因此,当涉及未来的AGI系统时,这些方法是不够的,AGI系统将自动行动,因此需要更加复杂地了解人类的价值何时发生变化和转变。
例如,一个人可能总是重视走更长的路线以避开高速公路并省钱,但如果他们心脏病发作并试图去急诊室则不会。当我们的时间和金钱价值发生变化时,AI代理人应该如何预测和理解?这个问题更加复杂,因为正如索塔拉指出的那样,人们经常重视事物,无论他们是否有持续的,有形的奖励。有时,人类甚至会重视可能在某些方面造成伤害的事物。考虑一个重视隐私的成年人,但其医生或治疗师可能需要访问亲密且深刻的个人信息 - 这些信息可能会挽救生命。AI代理人是否应该透露私人信息?
最终,Sotala解释说,基于效用的代理太简单了,并没有找到人类行为的根源。“效用函数描述的是行为而不是行为的原因...。它们更像是一种描述性模型,假设我们已经大致知道了这个人的选择。”虽然描述模型可能会认识到乘客更愿意存钱,但它不会理解为什么,所以它无法预测或决定其他价值何时覆盖“省钱”。
AI代理创建女王
Sotala的核心是强调,基本问题是确保人工智能系统能够发现管理我们价值观的模型。这将允许他们使用这些模型来确定在遇到新的和未预料到的情况时如何应对。正如索塔拉所解释的那样,“人工智能将需要有模型,使他们能够在完全新颖的情况下粗略地弄清楚我们的评估,人类可能不会事先知道这些情况可能出现的价值情况。”
在某些领域,人工智能系统通过在没有人为输入的情况下揭示我们的世界模型而使人类感到惊讶。作为一个早期的例子,Sotala引用了“单词嵌入”的研究,其中AI系统的任务是将句子分类为有效或无效。为了完成该分类任务,系统识别出某些单词之间的关系。例如,当AI代理注意到男性/女性对单词的维度时,它创建了一种关系,允许它从“王”变为“女王”,反之亦然。
从那时起,已经有系统学习了更复杂的模型和关联。例如,OpenAI最近的GPT-2系统已经过培训,可以阅读一些写作,然后编写可能跟随它的文本。当提示“今天的家庭作业,请描述内战的原因”时,它写的东西类似于关于内战的高中文章。当得到“Legolas和Gimli在兽人身上前进,用令人痛苦的战争口号提升武器”的提示时,它会在其输出中写出听起来像指环王的小说,包括Aragorn,Gandalf和Rivendell等名字。 。
索塔拉指出,在这两种情况下,人工智能代理“都没有尝试像人类一样学习,但是它试图用任何有效的方法来完成它的任务,结果证明它构造了一个非常类似于人类理解的方法。世界。”
AI系统有明显的好处,能够自动学习更好的数据表示方式,并在此过程中开发出符合人类价值观的模型。当人类无法确定如何映射和随后建模值时,AI系统可以识别模式并自己创建适当的模型。然而,相反的情况也可能发生 - 一个AI代理人可以构建一些似乎是人类关联和价值观的准确模型,但实际上是危险的错位。
例如,假设AI代理人了解到人类想要快乐,并且为了最大限度地提高人类的幸福感,它将我们的大脑连接到提供电刺激的计算机上,这些电脑会让我们感受到持续的快乐。在这种情况下,系统理解人类重视幸福,但它没有适当的模型来表示幸福如何与其他竞争价值如自由相对应。“从某种意义上说,它让我们快乐并消除所有痛苦,但与此同时,人们会觉得'不,这不是我所说的人工智能应该让我们开心的意思,'”索塔拉指出。
因此,我们不能依赖代理人发现模式的能力,并从这种模式中创建一个准确的人类价值模型。对于AI系统,研究人员需要能够对人类价值进行建模并对其进行精确建模。
制定更好的定义
鉴于我们的竞争需求和偏好,很难对任何一个人的价值进行建模。结合并同意普遍适用于所有人的价值,然后成功地为AI系统建模,似乎是一项不可能完成的任务。然而,已经提出了几种解决方案,例如反强化学习或试图推断人类道德发展的未来。然而,索塔拉指出,这些解决方案不足。正如他在最近的一篇论文中所阐述的那样,“这些提议中没有一个提供了对人类价值究竟是什么的令人满意的定义,这对于任何试图建立旨在学习这些价值观的人工智能系统的尝试都是一个严重的缺点。”
为了解决这个问题,Sotala开发了一个替代的人类价值初步定义,可用于设计价值学习代理。在他的论文中,索塔拉认为,价值观不应该被定义为静态概念,而应该被定义为在人类改变,成长和接受“奖励”的许多情况下单独和独立地考虑的变量。
Sotala断言,在进化理论和强化学习方面,我们的偏好最终可能会得到更好的理解。为了证明这一推理的合理性,他解释说,在人类历史进程中,人们进化为追求可能导致某些结果的活动 - 这些结果往往会改善我们祖先的健康状况。今天,他指出人类仍然更喜欢这些结果,即使他们不再能够最大化我们的健康。在这方面,随着时间的推移,我们也学会享受和渴望似乎可能导致高回报状态的心理状态,即使他们不这样做。
因此,我们的偏好不是直接映射到奖励的特定值,而是映射到我们对奖励的期望。
Sotala声称这个定义在尝试将人类价值观编入机器时很有用,因为通过这种人类心理模型得知的价值学习系统会理解新体验可以改变一个人的大脑分类为“可能导致奖励”的状态。 Sotala的工作,机器智能研究所概述了这种框架的好处。他们说:“将有关人类心理动态的这些事实考虑在内的价值学习系统可能会更好地考虑我们未来的偏好,而不是仅针对目前的偏好进行优化。”
Sotala承认,这种建模价值形式并不完美。首先,本文只是对人类价值观进行定义的初步尝试,这仍然为未来的研究留下了许多细节。研究人员仍然需要回答与价值如何随时间演变和变化等相关的经验问题。一旦所有的经验问题得到解答,研究人员就需要应对那些没有客观答案的哲学问题,比如这些价值应该如何解释,以及它们应该如何指导AGI的决策。
在解决这些哲学问题时,索塔拉指出,前进的道路可能只是为了获得尽可能多的共识。“我倾向于认为没有任何真正的事实,哪些价值观是正确的,以及将它们组合起来的正确方法是什么,”他解释道。“我们应该努力寻找尽可能多的人能够达成共识的方式,而不是试图找到客观正确的方法。”
自从发表这篇论文以来,Sotala一直在研究一种不同的人类价值建模方法,这种方法基于将人类视为多智能体系统的前提。这种方法已被发表为一系列不太错误的文章。Future of Humanity Institute的Stuart Armstrong还有一个相关但独立的研究议程,其重点是将人类偏好综合成更复杂的效用函数。