很多文章的报道都是由微观而宏观,今日小编讲给大家带来的关于人工智能调整公民科学数据中的差距 的资讯也不例外,希翼可以在一定的程度上开阔你们的视野!y有对人工智能调整公民科学数据中的差距 这篇文章感兴趣的小伙伴可以一起来看看
公民科学为研究人员带来了福音,它提供了大量的数据,从动物物种到遥远的星系。
但是众包信息可能会不一致。来自人口稠密地区的报告更多,而来自难以访问的地点的报告更少,这为需要均匀分布数据的研究人员带来了挑战。
计算机科学的博士研究生,《通过端到端班次学习减少偏见:在公民科学中的应用》的第一作者狄晨说:“数据集存在很大的偏差,因为数据是由志愿者收集的。”将于1月27日至2月在AAAI人工智能大会上发表。1在檀香山。
陈说:“由于这是出于个人兴趣,因此这种数据的分发并不是科学家想要的。” “所有数据实际上都分布在主要道路和城市地区,因为大多数人不想开车200英里来帮助我们在沙漠中探究鸟类。”
作为补偿,Chen和计算机科学教授,计算可持续性研究所所长Carla Gomes开辟了一种深度学习模型,该模型通过比较各个位置的人口密度来有效纠正公民科学中的位置偏向。Gomes和Chen用来自康奈尔鸟类学实验室eBird的数据测试了他们的模型,该实验室每年收集全世界观鸟者提交的超过1亿只鸟类目击事件。
“与保护生物学家和生态学家交流时,交流这些估量的很大一部分是说服他们我们意识到了这些偏见,并在可能的程度上操纵了这些偏见,”该组织高级研究助理Daniel Fink说。与Gomes和Chen合作开展这项工作的鸟类学实验室。“这给[生物学家和生态学家]一个更好的理由来信任这些结果并实际使用它们,并根据它们做出决定。”
长期以来,研究人员已经意识到公民科学数据存在的问题,并尝试了各种方法来解决这些问题,包括其他类型的统计模型。鼓舞诱使志愿人员前往偏远地区或追寻不受欢迎的物种的项目已经显示出希翼,但这些项目可能昂贵且难以大规模进行。
像eBird一样的海量数据集在机器学习中很实用,在机器学习中,大量数据被用来训练计算机进行预测和解决问题。但是由于位置偏差,使用eBird数据创建的模型将做出不准确的预测。
调整偏置在eBird数据由数据的诸多特性进一步复杂化。系统中的每只鸟类观测都包含16条不同的信息,因此在计算上具有挑战性。
Chen和Gomes使用深度学习模型(一种擅长分类的人工智能)解决了这个问题,该模型通过比较密度的比率来调整不同地区的人口差异。
戈姆斯说:“目前,我们获得的数据基本上是有偏差的,因为鸟类不仅在城市周围停留,因此我们需要将其纳入考虑范围并加以纠正。” “我们需要确保培训数据将与您在现实世界中所拥有的相匹配。”
Chen和Gomes测试了几种模型,发现它们的深度学习算法在预测可能发现鸟类的地方比其他统计或机器学习模型更有效。
戈麦斯说,尽管他们与eBird合作,但他们的发现可用于任何形式的公民科学项目。
她说:“有很多应用程序都依赖于公民科学,这个问题很普遍,因此,无论人们是在对鸟类,星系进行分类还是在其他数据偏见会歪曲学习模型的情况下,您都确实需要纠正它。” 。