在 Build 2024 大会上,微软宣布了一系列面向开发者的新工具。其中包括微软开发的 Phi-3 系列 AI 小型语言模型 (SLM) 中的一种新型多模式模型。微软产品营销数据、AI 和数字应用企业副总裁 Jessica Hawk 表示:“Phi-3 模型功能强大、经济高效,并且针对资源受限的环境进行了优化,包括设备上、边缘、离线推理和延迟受限场景,这些场景对快速响应时间至关重要。”
该模型给开发者带来了什么?
据 Hawk 介绍,该模型提供了输入图像和文本以及输出文本响应的功能。微软对这些模型的想法虽小但功能强大,因为它们的大小为 42 亿个参数,并支持一般的视觉推理任务和图表/图形/表格推理。“例如,用户可以询问有关图表的问题,或者询问有关特定图像的开放式问题,”Hawk 说。Phi-3-mini 和 Phi-3-medium 现已作为 Azure AI MaaS 产品的一部分普遍可用。
微软声称,Phi-3-vision 是 Phi-3 系列中第一个多模态模型,它将文本和图像结合在一起,并具有推理现实世界图像以及从图像中提取和推理文本的能力。它还针对图表和图形理解进行了优化,可用于生成见解和回答问题。