在算法偏差方面,最能说明Google面临挑战的产品之一是其受欢迎的Translate服务。该公司如何教翻译公司认识性别,这是这种基本问题仍然多么复杂的一个例子。
“ Google是人工智能领域的领导者,” Google AI产品总监Barak Turovsky说。“领导层带来了解决机器学习偏见的责任,这种偏见在包括对话型AI在内的许多领域中都有关于种族,性别和性别的多个结果示例。”
在与HackerU的Noelle Silver进行的炉边聊天中,Turovsky在VentureBeat的Transform 2020会议上发表了讲话。
翻译的结果可能会对全球产生重大影响。Turovsky说,互联网上大约50%的内容是英语,但世界上只有20%的人会说英语。Google每天由1500亿活跃用户翻译1,400亿个单词,其中95%来自境外
他说:“为了使全世界的信息都可以访问,我们需要翻译。”
问题在于进行翻译的算法无法识别性别,这是许多语言中最基本的元素之一。更成问题的是,公司向其机器学习系统提供的原始材料本身就是基于性别偏见的。例如,Turovsky表示Google使用的最重要的翻译来源之一是圣经。
他说:“性别偏见来自历史和社会原因,因为我们的许多培训数据已有数百年甚至数千年的历史。”
例如,从历史上看,在许多文化中,医生往往主要是男性,护士主要是女性。因此,即使算法开始掌握性别的某些方面,它也可能会返回默认的英语翻译,说“他是医生,她是护士”。
他说:“这种固有的偏见在翻译中经常发生。”
在Google采纳的AI原则中,公司内部希望避免通过其算法引入或加强任何不公平的偏见。但是,尽管有多种方法可以解决此翻译性别问题,但没有一种方法可以令人满意。
该算法可以有效地掷硬币,可以根据用户选择的内容或对翻译的反应来决定,或者可以提供多种响应并让用户选择最佳的。
Google选择了最后一种选择。翻译将显示多个选项,并允许用户选择一个。例如,如果有人键入“ nurse”,则西班牙语翻译将显示“ enfermera”和“ enfermero”。
他说:“听起来很简单。”“但是这要求我们建立三个新的机器学习模型。”
这三个模型可以检测不带性别的查询,生成特定于性别的翻译,然后检查准确性。在第一个模型中,这涉及到训练算法,在该算法上,单词可以潜在地表达性别,而哪些则不能。对于第二种模型,必须将训练数据标记为男性或女性。然后,第三个模型过滤掉可能潜在改变其潜在含义的建议。
在后者上,Turovsky提供了此示例,其中当原始短语没有性别意识时,搜索结果引入了性别,并且在此过程中改变了含义。
他说:“当系统将注意力集中在性别上时,就会发生这种情况。”Turovsky表示,Google会继续对所有这三种模型以及它们之间的交互方式进行微调,以改善这些结果。