在过去的几年里,人工智能程序让全世界惊叹不已,这些程序可以在您输入短语时生成图像,例如StableDiffusion和DALL*E等程序,它们可以以您想要的任何风格输出图像,并且可以通过使用不同的提示短语。
通常,这些程序依赖于通过对示例图像执行压缩过程来操纵示例图像,然后将其解压缩以恢复原始图像,从而学习图像创建的规则,该过程称为扩散。
Meta上周推出的工作表明了一些简单得多的东西:图像可以仅仅被视为一组代码,如单词,并且可以像ChatGPT操作文本行一样进行处理。
在人工智能中,语言可能就是你所需要的一切。
结果是一个可以处理具有多个元素的复杂主题的程序(“一只戴着摩托车头盔和斗篷的泰迪熊在里约热内卢骑着摩托车,背景是DoisIrmãos。”)它可以渲染困难的物体,例如手和文本,这些东西在许多图像生成程序中往往会被扭曲。它可以执行其他任务,例如详细描述给定图像,或精确更改给定图像。而且只需通常所需计算能力的一小部分即可完成。
FacebookAIResearch(FAIR)的LiluYu及其同事发表在Meta的AI研究网站上的论文《缩放自回归多模态模型:预训练和指令调优》中,关键的见解是像使用图像一样使用图像字。或者更确切地说,文本和图像一起作为连续的句子使用“密码本”来用标记替换图像。
Yu和团队写道:“我们的方法扩展了自回归模型的范围,展示了它们在成本效益和性能方面与扩散模型竞争并超越的潜力。”
密码本的想法可以追溯到2021年海德堡大学的PatrickEsser和同事提出的想法。他们采用了一种长期存在的神经网络,称为卷积神经网络(或CNN),它擅长处理图像文件。通过训练一个名为生成对抗网络(GAN)的人工智能程序(可以制造图像),CNN可以将图像的各个方面(例如边缘)与密码本中的条目关联起来。”
然后可以像ChatGPT等语言模型中的单词预测下一个单词的方式来预测这些索引。高分辨率图像变成索引预测序列而不是像素预测,这是一种计算强度低得多的操作。
meta-2023-scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning.png
CM3Leon的输入是一串标记,其中图像被简化为文本形式的另一个标记,即对密码本条目的引用。
元2023
Meta的Yu和同事使用密码本方法组装了所谓的CM3Leon(发音为“chameleon”),这是一种神经网络,是一种能够处理图像密码本的大型语言模型。
CM3Leon建立在FAIR去年推出的先前程序——CM3(“因果屏蔽多模态建模”)的基础上。它就像ChatGPT,因为它是一个“Transformer”风格的程序,经过训练来预测序列中的下一个元素——“仅解码器的Transformer架构”——但它将其与键入内容的“屏蔽”部分结合起来,类似到谷歌的BERT程序,这样它也可以从句子后面可能出现的内容中获取上下文。
CM3Leon基于CM3构建,添加了所谓的检索功能。检索在大型语言模型中变得越来越重要,这意味着程序可以“打电话回家”,如果您愿意的话,可以进入文档数据库并检索可能与程序输出相关的内容。这是一种访问内存的方法,这样神经网络的权重或参数就不必承担携带进行预测所需的所有信息的负担。