经过近一年的悬念和争议,现在,OpenAI的人工智能(AI)研究人员团队有一天将发布GPT-2的完整和最终版本,这是一种可以“生成连贯段落并执行基本阅读理解、机器翻译、问题回答和摘要的语言模型——所有这些都不需要针对特定任务的培训。”当OpenAI在2月份首次发布该程序时,它有着惊人的壮举:例如,关于安第斯山脉独角兽的两个提示,该程序产生了一篇连贯的九段新闻文章。当时的技术成果都是有新闻价值的,但是OpenAI选择如何发布,确实引起了新技术的轩然大波。
机器学习研究界有一个普遍的开放规范。这个领域的开放者是这个领域早期的巨头们有意识地创造出来的:期望进步可以被分享,以便可以被评价,从而使整个领域进步。然而,在2月份,由于担心该程序可能被用来产生误导性的新闻报道,OpenAI选择了更有限的发布;在网上模拟人;或者自动创建可恶的、虚假的或垃圾的内容。因此,该公司共享了一个小117M版本和采样代码,但宣布不会共享数据集的关键元素、训练代码或模型权重。
尽管一些观察家赞赏OpenAI的谨慎,但许多人感到失望。一群评论者指责该组织散布恐惧,夸大该技术吸引人们注意力的危险性;还有人建议,该公司背叛了自己的核心使命,应该改名为“ClosedAI”。5月,OpenAI发布了更大版本的模型3.45亿,并宣布将762M和1.5B版本分享给同样在努力的有限合伙人。针对恶意使用制定对策。又有人鼓掌了。其他人不为所动。
无论GPT-2是否危险到需要保留,OpenAI的出版策略已经引发了一场跨学科的对话,讨论确定原则和策略,以决定何时适当限制对AI研究的访问。在过去的八个月里,OpenAI规范企业家的努力影响了其他人:AI Partnership组织了一次活动,讨论开放研究和预防性关注之间的紧张关系。拥抱脸有限公司发表了关于社交聊天机器人的文章,这些文章描述了如何滥用该系统,并提出了识别他人误导聊天机器人的方法。当华盛顿大学和艾伦人工智能研究所的研究人员揭示GROVER(GPT-2风格的语言模型)时,他们决定不发布该模型的大版本——这一决定部分基于OpenAI的论点。同样,人工智能初创公司AI21 Labs发布了其神经文本生成器的345M版本,理由是“其大小相当于公开发布的格罗弗和GPT-2版本。”“好奇黑客”康纳莱希(Connor Leahy)独立复制了OpenAI尚未发布的1.5 B GPT-2,并计划公开发布——但后来决定不这么做,以帮助制定一个负责任的发布规范。
GPT-2案件引发了人工智能社区内部关于OpenAI是否做出了正确选择的激烈辩论。现在,任务是从GPT-2案例研究中进行推断,并就负责任的AI发布规范达成共识。