Google Research的一名软件工程师Chao Chen于2020年8月11日发表在Google AI博客上。该文章的标题为:设备上超市产品识别。尽管最近几天我一直在撰写有关自然语言处理的文章,但我认为我会在这段努力中稍作休息,以了解这项研究。
Chen强调视障用户所面临的挑战 。
在杂货店和厨房中很难识别包装食品。
许多食物使用相同的包装-装在盒子,罐子,广口瓶等中。
在许多情况下,唯一的区别是产品上印刷的文字和图像。
随着智能手机的普及,陈认为我们可以做得更好。
他建议使用机器学习(ML)来应对这一挑战。随着速度的提高和智能手机中计算能力的提高,许多视觉任务可以完全在移动设备上完成。
但是,在时代,不亲自触摸产品以检查包装信息也可能是有利的。
在谷歌AI博客上发布了在瑞士一家超市中进行设备上商品识别的早期实验。
他提到了设备上模型的开发,例如 MnasNet 和 MobileNets (基于资源感知的体系结构搜索)。
“ MnasNet:面向移动平台的神经结构搜索”,探索了一种自动神经结构搜索方法,用于使用强化学习设计移动模型 。
“ MobileNetV3 和Pixel 4 Edge TPU优化的对应 MobileNetEdgeTPU 模型是硬件感知型 AutoML 技术的进步,以及体系结构设计的多项进步。”
利用这些开发成果(最近发布的 Lookout),这是一个Android应用程序,该应用程序使用计算机视觉使视障用户可以更轻松地访问物理世界。
“ Lookout 使用计算机视觉来帮助弱视或失明的人更快,更轻松地完成工作。通过使用手机的摄像头,Lookout可以更轻松地获取有关您周围世界的更多信息,并更有效地执行日常任务,例如分拣邮件,存放食品杂货等等。”
它是在盲人和弱视社区的指导下构建的,并支持Google的使命,即使所有人都能普遍获得世界各地的信息。
很高兴看到Google向难以访问信息的人们朝着这个方向发展。陈写道:
“当用户将智能手机相机对准产品时,Lookout会识别它并大声说出品牌名称和产品尺寸。”
这导致了一种架构,该架构足够高效,可以完全在设备上实时运行。
Chen认为可能必须如此。
通过设备上的方法,它具有低延迟且不依赖网络连接的优势。
Lookout使用的数据集由200万种流行产品组成,这些产品根据用户的地理位置动态选择。
从这个意义上讲,它可以涵盖大多数用法。