苹果开源 FastVLM 视觉语言模型支持浏览器本地运行-品玩

品玩9月5日讯，据9to5Mac 报道，苹果发布 FastVLM 视觉语言模型，凭借苹果自研 MLX 框架实现近实时高分辨率图像处理，性能较同类模型快 85 倍且体积小三分之一。近日该模型正式在 Hugging Face 平台开源，其 0.5B 轻量级版本支持浏览器直接加载体验。

实测显示，16GB M2 Pro 芯片的 MacBook Pro 加载该模型约需 2 分钟，运行时可实时精准描述用户外貌、背景环境、表情动作及手持物体等。用户可通过预设提示词（如 "描述所见内容"" 识别文字 " 等）触发模型响应，甚至能通过虚拟相机输入视频流实现多场景实时解析。

该模型最大亮点在于完全本地运行，数据无需上传云端且支持离线使用，为穿戴设备和辅助技术提供低延迟解决方案。目前开源的 0.5B 版本参数规模较小，而 FastVLM 家族还包括 15 亿及 70 亿参数的更强版本，未来或进一步优化边缘设备的视觉交互体验。