谷歌目前正在对其核心搜索算法进行更改,该算法表示可以更改十分之一查询中结果的排名。它基于Google研究人员开发的尖端自然语言处理(NLP)技术,并在过去10个月中应用于其搜索产品。
本质上,Google声称它通过更好地了解单词在句子中的相互关系来改善结果。谷歌昨天在一次新闻发布会上讨论了一个例子,其搜索算法能够解析以下短语的含义:“你能为药房买药吗?”
Google研究员兼搜索副总裁Pandu Nayak认为,旧的Google搜索算法将该句子视为“单词袋”。因此,它查看了重要的词,医学和药学,并简单地返回了本地结果。新算法能够理解“为某人”一词的上下文,以意识到这是一个有关您是否可以接受他人处方的问题-并且返回了正确的结果。
以前,GOOGLE将查询视为“一句话”
经过调整的算法基于BERT,它代表“来自变压器的双向编码器表示形式”。首字母缩略词的每个单词都是NLP中的一个术语,但要点是BERT看起来不像一袋单词那样对待句子整个句子中的所有单词。这样做可以使人们认识到“为某人”一词不应该被丢弃,而是对句子含义必不可少的。
BERT认识到应该注意这些单词的方式基本上是通过在《疯狂的里伯斯》(Mad Libs)的泰坦尼克号游戏中进行自学而实现的。Google提取了一个英语句子集,并随机删除了15%的单词,然后BERT的任务就是弄清楚这些单词应该是什么。Google高级研究员兼研究高级副总裁Jeff Dean认为,随着时间的流逝,这种培训对于使NLP模型“理解”环境非常有效。
Google引用的另一个示例是“无路边停车”。“ no”一词对于此查询至关重要,在搜索中实施BERT之前,Google的算法就忽略了这一点。
谷歌表示,在过去的几天中,它一直在推出算法更改,而且,它再次影响了在用英语进行的搜索查询的大约10%。其他语言和将在以后介绍。
搜索的所有更改均经过一系列测试,以确保它们实际上在改善结果。其中一项测试涉及使用Google的人工审核人员队伍,他们通过评估搜索结果的质量来培训该公司的算法-Google还会进行实时A / B实时测试。
并非每个查询都会受到BERT的影响,它只是Google用于对搜索结果进行排名的许多不同工具中的最新工具。究竟如何将它们完美地结合在一起,这还是一个谜。Google故意将其中的某些过程神秘化,以防止垃圾邮件发送者玩弄其系统。但是由于另一个重要原因,它也很神秘:当计算机使用机器学习技术做出决策时,可能很难知道为什么要做出这些选择。
BERT可能会影响所有GOOGLE搜索的10%
所谓的机器学习“黑匣子”是一个问题,因为如果结果在某种程度上是错误的,则可能很难诊断原因。谷歌表示,它已经努力确保将BERT添加到其搜索算法中不会增加偏见-这是机器学习的一个普遍问题,其训练模型本身是有偏见的。由于BERT受过庞大的英语句子的训练,而这些句子本身也带有偏见,因此需要密切注意。
该公司还表示,至少在大型发行商看来,它预计算法不会直接或间接影响流量。每当Google提出更改搜索算法的信号时,整个网络就会出现并引起注意。谷歌搜索排名的变化使公司生死存亡。
每个在网络流量上赚钱的人都应该引起注意。说到搜索结果的质量,Payak说:“这是我们过去五年中最大,最积极的变化,也许是自开始以来最大的变化。”