首页 手机 > 正文

谷歌的人工智能使用更少的计算和数据来训练最先进的语言模型

在最近的一项研究中,谷歌的研究人员提出了“有效学习一种用于准确分类令牌替换的编码器”(ELECTRA),这是一种AI语言训练技术。在计算资源相同的情况下,其性能优于现有方法。本周,在发布几个月后,合著者发布了TensorFlow的代码库(和预训练模型),为能够以最高级的准确性执行语言任务的强大模型奠定了基础。这些模型可能有一天会进入客户服务聊天机器人,或者它们可能会被整合到一个为高管团队总结报告的工具中。

预训练方法通常分为两类:语言模型(如OpenAI的GPT),从左到右处理输入文本,并根据给定的上下文预测下一个单词;以及屏蔽语言模型(比如谷歌的BERT和ALBERT,脸书的RoBERTa),可以预测输入中被屏蔽的几个单词的身份。掩蔽语言模型的优点是可以“看到”待预测的记号(即单词)左右两边的文本,但其预测仅限于输入记号的一小部分,从而减少了每一句的学习量。

ELECTRA的secret secret是一个名为替换令牌检测的预训练任务,它可以在从所有输入位置学习的同时训练双向模型(就像屏蔽语言模型一样),就像语言模型一样。辨别模型的任务是区分“真实”和“虚假”的输入数据。ELECTRA通过用不正确的伪造品替换一些令牌来“破坏”输入,但在某种程度上似乎是伪造的,然后需要一个模型来确定哪些令牌被替换或保持不变。

替换令牌来自另一个名为generator的AI模型。生成器可以是在令牌上产生输出分布的任何模型,但谷歌研究人员使用了一个用鉴别器训练的小型掩蔽语言模型。生成器和鉴别器共享相同的输入字嵌入。预训练阶段结束后,放下发生器,在各种下游任务上微调鉴别器(ELECTRA模型)。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。