首页 手机 > 正文

OpenAI的虚构AI正在学习生成图像

去年2月,旧金山的研究实验室OpenAI宣布,其人工智能系统现在可以撰写令人信服的英语文章。把一句话或一段话的开头输入GPT-2,就像它和人类有相似的连贯性一样,它能让思想延续下去。

现在,实验室正在研究如果将相同的算法代入图像的一部分会发生什么。结果本周的国际机器学习大会获得了最佳论文的荣誉奖,为图像生成开辟了新的途径,机遇与后果并存。

GPT-2的核心是一个强大的预测引擎。它通过查看从互联网各个角落搜集的数十亿个单词、句子和段落的例子来学习掌握英语的结构。通过这种结构,它可以通过统计预测单词出现的顺序,将单词操纵成新的句子。

因此,OpenAI的研究人员决定将单词转换为像素,并在ImageNet(最流行的深度学习图像库)中的图像上训练相同的算法。因为算法被设计成处理一维数据(即文本串),所以它们将图像扩展成单个像素序列。他们发现,名为iGPT的新模型仍然可以把握视觉世界的二维结构。给定图像上半部分的像素序列,它可以用人类认为明智的方式预测下半部分。

下面,你可以看到一些例子。最左边一栏是输入,最右边一栏是原始输入,中间一栏是iGPT的预计完成量。(点击此处查看更多示例。)

结果令人震惊,并显示了在计算机视觉系统的开发中使用无监督学习的新方法,该系统可以训练未标记的数据。虽然2000年代中期的早期计算机视觉系统以前尝试过这种技术,但它们并不流行,因为使用标记数据的监督学习被证明更成功。但无监督学习的优势在于,它让AI系统无需人工过滤就能认识世界,大大减少了人工标注数据的工作。

iGPT使用与GPT-2相同的算法这一事实也显示了其有希望的适应性。这符合OpenAI实现更通用的机器智能的终极雄心。

同时,该方法为深度伪造图像的生成提供了一种新的方法。生成网络(过去用于创建深度欺诈的最常见算法)必须经过高度精选的数据训练。比如你想让GAN生成人脸,它的训练数据应该只包含人脸。相比之下,iGPT只从数十亿个例子中了解了足够多的视觉世界的结构,以吐出其中可能的图像。虽然训练模型在计算上仍然很昂贵,但它为模型的访问提供了天然的障碍,这种障碍可能不会长期存在。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。