Alphabet旗下的DeepMind,一个在人工智能领域或许称得上是世界领先的公司,去年亏损5.72亿美元;在过去的三年中持续亏损,金额超过10亿美元。
这意味这什么?人工智能是否正在走向崩溃?
其实不然。众所周知,搞研究是最为烧钱的;因此,DeepMind每年都投入大量的资金,金额甚至比之前任何相关项目的金额都要大。话虽如此,但DeepMind亏损的上升幅度仍值得考虑:2016年为1.54亿美元,2017年为3.41亿美元,2018年为5.72亿美元。
这涉及到三个核心问题:DeepMind是否在科学上走上正轨?从Alphabet的角度来看,这种规模的投资是否合理?这种损失将会从整体上影响人工智能吗?
关于第一个问题,人们有理由持怀疑态度。DeepMind一心扑在深度强化学习上,该技术将主要用于识别模式的深度学习与基于奖励信号的强化学习相结合。
2013年,DeepMind在一篇激动人心的论文中将这项技术命名为“深度强化学习”,该论文展示了如何训练一个神经网络系统来玩各种Atari游戏,比如Breakout和Space Invaders;不得不承认,有时候它们比人类玩得都要好。这篇论文是一篇工程杰作,大概也是促使Alphabet在2014年1月收购DeepMind的主要原因之一。随后,该技术进一步发展,推动了DeepMind在围棋和游戏StarCraft(星际争霸)中取得胜利。
问题就在于,该技术对环境的依赖非常大:在玩Breakout时,就连将游戏中的球拍向上移动几个像素这样微小的变化,都会导致游戏性能急剧下降。DeepMind在星际争霸游戏里的胜利也有着同样的局限——使用特定地图和特定“种族”角色时,其结果优于人类;使用不同地图和不同角色结果较差。如果要更换角色,则要从头开始重新训练系统。
在某种程度上,深度强化学习是一种涡轮增压式的记忆,使用它的系统能够实现一些人们觉得不可思议的目标,但它们本身对自己在做的事情只有肤浅的理解。因此,当前的系统缺乏灵活性,也无法在环境发生变化时进行调整。
深度强化学习还需要大量的数据。比如,AlphaGo在训练过程中参加了数百万次围棋游戏,这远远超过了一个人想要成为世界级棋手所需要的数量;而且实现这个目标需要巨大规模的计算资源,价格也不菲——据估计,训练AlphaGo的成本为3500万美元。
不过,这些都是出于经济学的考虑。正如Rebooting AI(重启人工智能)这本书中所说,真正的问题在于信任。目前,深度强化学习只能在受到严格控制、很少出现意外的环境中进行;将其运行在几千年里都没有出现变化的环境里或许可行,但在现实生活中,人们可能不会想依赖它。