新闻:用于总结科学文献的新AI模型现在可以帮助研究人员涉猎并确定他们想要阅读的最新前沿论文。11月16日,艾伦人工智能研究所(AI2)将该模型扩展到其旗舰产品Semantic Sc holar,这是一个人工智能驱动的科学论文搜索引擎。当用户使用搜索功能或进入作者页面时,它在每篇计算机科学论文下提供一个tl句子(目前);(博士太长;没有阅读)摘要。这项工作也被本周的“自然语言处理的经验方法”会议所接受。
背景:在信息过载的时代,用AI来概括文本一直是一个热门的NLP问题。有两种通用的方法来完成这项任务。一种叫“摘抄”,试图从逐字记录中找出一个句子或一组句子来把握其本质。另一种叫做“抽象”,涉及生成新句子。虽然由于NLP系统的限制,提取技术曾经更受欢迎,但近年来自然语言生成的进步使抽象技术变得更好。
他们是如何做到的:AI2的抽象模型使用了所谓的变压器-一种神经网络架构,这是2017年首次发明的。从那以后,它推动了NLP的所有重大飞跃,包括OpenAI的GPT-3。首先,研究人员在公共语料库上训练转换器,以建立对英语的基本熟悉。这个过程被称为“预训练”,这也是变形金刚如此强大的部分原因。然后,他们针对总结的具体任务对模型进行了微调(换句话说,进一步训练了它)。
微调数据:研究人员首先创建了一个名为SciTldr的数据集,其中包含约5400对科学论文和相应的一句话摘要。为了找到这些高质量的摘要,他们首先在OpenReview上寻找,open review是一个开放的会议论文提交平台,研究人员通常会在这个平台上发布自己论文的一句话摘要。这提供了两千双。然后,研究人员聘请注释者通过阅读和进一步浓缩同行评审员已经撰写的摘要来总结更多的论文。