在人工智能快速发展的今天,在手机、PC 甚至 Raspberry Pi 等边缘设备上运行大型 AI 模型的需求日益增长。然而,如何在 CPU 等资源有限的设备上高效部署这些模型,仍然是一个重大挑战。传统上,专用的硬件加速器(如 NPU 和 GPU)一直是完成这一任务的首选解决方案。但如果我们只使用 CPU 就能实现相似甚至更好的性能,那会怎样?微软亚洲研究院的一项新技术 T-MAC 便可以发挥作用。T-MAC 技术可以提高手机上大型 AI 模型的速度,使其运行速度提高 4-5 倍,而这一切都只需一个 CPU。
问题:在手机上运行大型 AI 模型
当我们尝试在手机或小型 PC 上运行 AI 时,我们会遇到两个大问题:空间和功耗。这些模型需要大量空间和能量才能正常工作。为了解决这个问题,我们经常使用一种称为模型“量化”的技巧。这意味着我们通过降低模型各部分的位数来缩小模型的大小。虽然这有助于节省空间,但由于数学运算的方式,它可能会降低模型的速度。通常,您需要将这些低位部分改回高位才能使模型正常工作,这很慢,不利于速度。
解决方案:T-MAC 技术
T-MAC 技术使用“查找表”(LUT)方法进行计算,而不是使用旧式的缓慢方法。这意味着模型不需要先将位改回高位。这节省了时间和功耗,使模型运行速度更快,能耗更低。借助 T-MAC,手机和小型设备可以以甚至能超越 NPU 等特殊硬件的速度运行 AI 模型。