随着开发人员面临着让复杂的AI和机器学习应用程序在边缘计算设备上运行的挑战,支持微小ML的选项不断涌现。
边缘是关于智能的,但是这些智能必须被压缩成越来越小的形状。
人工智能(AI)应用程序的开发人员必须确保他们构建的每一个新的机器学习(ML)模型都经过优化,以便在一个或多个目标平台上进行快速推理。这些目标环境正日益成为边缘设备,如智能手机、智能相机、无人机和嵌入式设备,其中许多设备在处理、内存、存储和其他本地硬件资源方面受到严重限制。
对于更复杂的人工智能应用程序核心的深度神经网络来说,小型设备的硬件限制是一个问题。许多神经网络模型可能非常庞大和复杂。因此,对于一些需要低成本商用芯片组的大众市场应用,当在边缘设备上本地处理这些模型时,内存和存储要求可能会被证明过高。此外,一些已部署的支持人工智能的端点可用的有限和间歇的无线带宽可能会导致与下载最新模型更新相关的长时间下载延迟,以保持其模式识别性能优异。
Edge是“一次建模,随处优化运行”的典范
面向边缘部署的人工智能应用的开发人员正在一个越来越广泛的框架中工作,并将他们的模型部署到各种硬件、软件和云环境中。这使得确保每个新的人工智能模型都能在其目标平台上快速推理和优化的任务变得复杂,这在传统上是一个需要手动调整的负担。很少有AI开发人员是部署ML模型的硬件平台的专家。
这些开发者越来越依赖于他们的工具来自动调整和修整模型的神经网络架构、超参数和其他功能,以适应目标平台的硬件约束,而不会过度损害构建ML的预测精度。
在过去的几年中,开源AI模型编译器已经进入市场,以确保工具链自动优化AI模型,在不影响模型准确性的情况下实现快速有效的边缘执行。这些模型编译器,可以优化一次,现在包括AWSNNVM编译器,IntelNgraph,GoogleXLA和NvidianSort3。此外,AWS提供了SageMaker Neo,Google为TensorRT提供了TensorFlow,用于优化各种边缘目标平台的推理。
为AI edge处理器调整更好的数学
一些人开始称之为“TinyML”革命。这是指一波新方法,使设备上的AI工作负载能够由安装在边缘设备上的紧凑运行时和库来执行,功耗超低,资源有限。