品玩9月5日讯,据9to5Mac 报道,苹果发布 FastVLM 视觉语言模型,凭借苹果自研 MLX 框架实现近实时高分辨率图像处理,性能较同类模型快 85 倍且体积小三分之一。近日该模型正式在 Hugging Face 平台开源,其 0.5B 轻量级版本支持浏览器直接加载体验。
实测显示,16GB M2 Pro 芯片的 MacBook Pro 加载该模型约需 2 分钟,运行时可实时精准描述用户外貌、背景环境、表情动作及手持物体等。用户可通过预设提示词(如 "描述所见内容"" 识别文字 " 等)触发模型响应,甚至能通过虚拟相机输入视频流实现多场景实时解析。
该模型最大亮点在于完全本地运行,数据无需上传云端且支持离线使用,为穿戴设备和辅助技术提供低延迟解决方案。目前开源的 0.5B 版本参数规模较小,而 FastVLM 家族还包括 15 亿及 70 亿参数的更强版本,未来或进一步优化边缘设备的视觉交互体验。

0 条评论
请「登录」后评论