品玩

科技创新者的每日必读

打开APP
关闭

苹果开源 FastVLM 视觉语言模型 支持浏览器本地运行

17小时前

品玩9月5日讯,据9to5Mac 报道,苹果发布 FastVLM 视觉语言模型,凭借苹果自研 MLX 框架实现近实时高分辨率图像处理,性能较同类模型快 85 倍且体积小三分之一。近日该模型正式在 Hugging Face 平台开源,其 0.5B 轻量级版本支持浏览器直接加载体验。

实测显示,16GB M2 Pro 芯片的 MacBook Pro 加载该模型约需 2 分钟,运行时可实时精准描述用户外貌、背景环境、表情动作及手持物体等。用户可通过预设提示词(如 "描述所见内容"" 识别文字 " 等)触发模型响应,甚至能通过虚拟相机输入视频流实现多场景实时解析。

该模型最大亮点在于完全本地运行,数据无需上传云端且支持离线使用,为穿戴设备和辅助技术提供低延迟解决方案。目前开源的 0.5B 版本参数规模较小,而 FastVLM 家族还包括 15 亿及 70 亿参数的更强版本,未来或进一步优化边缘设备的视觉交互体验。

取消 发布

下载品玩App,比99.9%的人更先知道关于「苹果」的新故事

下载品玩App

比99.9%的人更先知道关于「苹果」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测