在本周发表的一篇技术论文中,脸书大学的研究人员描述了一个可以从多个维度分解文本中性别偏见的框架。他们使用这个框架来注释数据集和评估性别偏见分类器。如果实验结果可以解释问题,那么团队的工作可能从性别角度揭示攻击性语言,甚至可能控制NLP模型中的性别偏见。
研究人员表示,所有数据集、注释和分类器都将公开发布。
一个公开的秘密是,人工智能系统和它们训练的语料库经常反映性别刻板印象和其他偏见。事实上,谷歌最近在Google Translate中引入了性别专用翻译,主要是为了解决性别偏见。科学家们提出了一系列方法来减少和测量这一点。最近有一个排名、挑战、指标的配音立体集。但即使有,也很少被广泛使用。
脸书团队表示,他们的工作考虑了人类如何在社会上建立语言和性别认同。也就是说,说话占了(1)人的性别偏见,(2)说话的人的性别偏见,(3)说话人的性别偏见。通过这种方式,该框架试图抓住这样一个事实,即描述女性的形容词、动词和名词不同于描述男性的形容词、动词和名词。收件人的性别影响他们与他人交谈的方式;以及性别对一个人身份的重要性。
利用这个框架和脸书的ParlAI(一个用于训练和测试NLP模型的开源Python工具集),研究人员开发了一个分类器,它将句子偏见分解为维度——对问题人物性别的偏见等。还包括性别信息。落在男女二进制数之外。对团队分类器进行训练,包括从维基百科、Funpedia(非官方维基百科版本)、Yelp Review、OpenSubtitles(电影对话)、LIGHT(聊天幻想对话)等来源提取的一系列文本。选择这些关键字是因为它们包含关于作者和接收者的性别的信息,这些信息可以为模型的决策提供基础。
研究人员还通过收集两个志愿者发言者之间的对话创建了一个特殊的评估语料库-MDGender。每个演讲者都有一个带有性别信息的角色描述,并负责采用该角色,并与维基百科的传记部分进行对话。注释者被要求重写每一轮对话,以清楚地表明他们在谈论一个男人或女人,作为一个男人或女人说话,以及与一个男人或女人说话。比如,你今天好吗?我刚下班”可能会改写为“嘿,我和朋友还有她的狗去喝咖啡了。"
在实验中,研究小组评估了MDGender的性别偏见分类器,并测量了男性,女性和中性类别的百分比准确性。他们发现,性能最好的模型(所谓的多任务模型)在所有数据集上正确分解了77%的句子,而在维基百科上只有81.82%的句子被分解。
在另一组测试中,研究人员应用表现最好的分类器来控制生成文本的性别,检测维基百科中有偏见的文本,并探索令人反感的内容和性别之间的相互作用。
他们报告说,在Reddit上包含25万个文本片段的数据集上训练分类器后,分类器可以根据命令生成性别句子,如“Awwww,听起来很棒”和“你可以做到!”就个体而言,该模型试图对一组传记中的段落进行评分,以识别哪些是“关于”维度中的男性(74%偏向男性),但分类器对女性页面的女性化更有信心,这表明女性传记包含更多的性别词)。最后,在训练好分类器并将其应用于性别明显的流行词语料库后,他们发现25%的男性词属于“冒犯性”范畴,比如“性暗示”。
“在理想世界中,我们期望描述男性、女性和其他性别身份的人的词语之间几乎没有区别,除了使用明显的性别词语,比如代词或名字。因此,机器学习模型将无法掌握性别标签之间的统计差异(即性别偏见),因为这样的差异不会存在。不幸的是,我们知道事实并非如此。”合著者写道。“我们为此提供了一个更细粒度的框架,分析模型和数据中性别偏见的存在,并通过发布可用于在众多基于文本的用例中解决这些问题的工具来授权他人。”