首页 生活 > 正文

考虑可转移跨模态表示学习的对齐高效图像句子检索

图像句子检索任务旨在搜索图像中给定的句子并从图像查询中检索句子。目前的检索方法都是有监督的方法,需要大量的标注进行训练。然而,考虑到劳动力成本,在许多应用(例如医学检索)中很难重新对齐大量多模态数据,这导致了无监督的多模态数据。

为了解决这个问题,杨阳领导的研究团队于2024年2月15日在 高等教育出版社和施普林格·自然联合出版的《计算机科学前沿》 上发表了他们的新研究。 该团队力争通过设计对齐传输向非并行图像句子检索迈出一步,并提出了一种新颖的对齐高效图像句子检索方法(AEIR)。 在研究中,AEIR使用具有多模态一致性的其他辅助并行数据作为源域,以及缺失一致性的非并行数据作为目标域。与单模态迁移学习不同,AEIR 将语义表示和模态一致性关系一起从源域迁移到目标域。 首先,AEIR 使用源域中的跨模态并行数据学习跨模态一致性表示。然后AEIR联合优化基于对抗性学习的语义转移约束和基于度量学习的结构转移约束来学习跨域跨模态一致性表示,实现一致性知识从源域到目标域的迁移。在不同迁移场景下进行的大量实验表明,语义迁移和结构迁移可以有效地学习跨领域的跨模态的不变特征。所提出的高效的基于对齐的图像句子检索网络验证了AEIR比当前的跨模态检索方法、半监督跨模态检索方法和跨模态转移方法更具优势。 考虑到域差异,未来的工作可以集中于进行积极的跨模式转移。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。