爱其精致，怒其不争：开发者锐评 Vision Pro

Matrix 首页推荐

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。
文章代表作者个人观点，少数派仅对标题和排版略作修改。

Vision Pro 一转眼已经发布了一年半了，人们的新鲜感和热度也早已褪去。而销量的不佳，迟迟未有起色的生态也为他的未来蒙上了更多不确定性。那 Vision Pro 到现在还有哪些不为人知的特点，苹果在产品设计，API 上又有哪些优缺点。欢迎来到这期深度锐评 Vision Pro。作为一个苹果生态的开发者，今天咱们就来聊点你在其他地方从来没有听过的独到观点。

交互

Vision Pro 和前辈 Quest 最显而易见的不同，就在于其完善的眼手交互设计，在绝大多数情况下都要更为优雅和省力。并且将选择和确定完全解耦。不会像 Quest 点击要十分小心精确的控制手指的位置，一旦在捏合的时候手的位置不小心偏移就会选择失败。

而在对手部的处理上，Vision Pro 也是无情的展示着拥有强大算力的任性。Vision Pro 之前的设备，例如 Hololens 绝大多数时候完全不对手部的遮挡做任何处理。Quest 则好一些。有一个还算精细的半透明手部模型。

Vision Pro 直接选择了对每秒 100 帧的视频流与深度流进行实时的手部扣像和合成，而且边缘非常精细。而这所带来的巨大开销，是其他厂商不敢想的。同时手部的明暗和色彩会根据所处虚拟场景的不同动态变化，提供了远超手部模型的沉浸感。苹果用一种最为暴力的解法，做到了将科技隐于无形。而愿意投入大量的资源去打磨看似不影响核心体验的做法，也是只有苹果能做到了。

在延迟处理方面，Vision Pro 采用了极其巧妙的分层策略，将画面处理分为三个不同的延迟等级。首先，摄像头采集到的画面会立即经过渲染后显示，延迟仅约 12ms；同时系统会对该帧图像进行扣像处理，完成后，旧的扣像蒙版随后会与新到达的视频帧一起合成显示；这个过程要 30-40ms，而对于更复杂的手势识别和手部关节三维位置重建，则需要约 100ms 的处理时间。

这就是为何当你快速移动手部时，会发现扣像效果总是略有滞后。但由于系统不需要显示手部建模，用户在大多数情况下并不会察觉到接近 100ms 的手部追踪延迟，并且在 visionOS 2 中开发者也可以开启手部动作预测降低手追的延迟至和 Quest 近似的 60ms 左右。

那么 Vision Pro 的时候是方案是不是就完美了呢？并不是。Quest 也有更为出色的设计。Quest 的手部模型并不是永远和现实中的手部保持一致，而是能够与虚拟物体发生的碰撞和互动。比如在使用视觉手部模型抓握一个具有碰撞盒的物体时，即使我已经握拳，但是我看到的我的时候仍然是最自然的抓握状态。同时 Quest 还提供了不同的抓握预设。例如捏合，掌握，远程选择，能够很方便的对不同物体定义不同的选中标准。甚至还支持将手部自动贴合为特定姿势。并且基本不需要额外的代码就能完成。大大提升了在 3D 场景下双手操作的沉浸感。

而这样的设计贯穿在 Quest 的各个 App 中。在日常的界面导航中，相比 Vision Pro 的仅靠光晕提醒，quest 都要更明确与舒适。而在苹果的原生开发框架下，除了告诉开发者手部各个关节的位置，没有做任何额外的处理与优化。一个反面案例就是淘宝的小米的 SU7 沉浸模型。想象一下当你坐在车里时，系统引导你去启动车辆，你肯定下意识的要伸手去按。虽然车辆成功启动了，但是模型上却没有任何反馈。闹了半天原来是还是要用眼睛看和手指捏合。再比如这个取木块游戏，在 Quest 是这样的，在 Vision Pro RealityKit 开发的 App 中，却仍然需要靠眼神锁定 + 手势拖拽。这样的设计在真正的 3D 体验中，是不符合直觉的，不沉浸的。

说了这么多你会发现，苹果的交互思路，就好像是你拿着遥控器，你可以遥控你眼睛看到的任何东西。当然在很多情况下这种体验是更省力的，但并不是所有东西，都适合被遥控。而在真正的 3D 互动中，就像是隔着一层窗户纸，也难免产生更强的距离感。

另外 Quest 的另一个优点就是手柄的支持。手柄通过特定排列的红外灯组，由头显多个视角下相机的解算确定位置，完全不受光线影响。同时手柄还内置了加速度计和陀螺仪。就算是短暂脱离头显视线也能维持定位。而目前的纯光学手势识别，无论算法再强大，都会受到视角，光线，移动速度等各种影响，造成准确性下降和延迟。并且信息密度低，同时没有振动反馈。

就像在 Vision Pro 上的健身游戏，要么就是只能做慢速移动。要么就是一旦手速加快，丢追踪和延迟导致的 miss 也让人心生不快。再例如绘画 App，使用手追也经常有断触和误触的情况出现。你必须十分小心的摆出特定手势。并且确保速度不会太快。而如果使用手柄，那怕你发了疯的甩动手臂，也不会有任何追踪丢失的情况。

也许 Vision Pro 的手追在 90% 的日常场景下都能完美工作。但对于游戏和 3D 创作这类场景下，10% 的概率也是难以接受的。就好像如果你的鼠标左键开火十次只能触发九次，上班的闹钟十天能响九天。你还愿意用这样的设备么。而这也造成了 Vision Pro 上没有也不会有像节奏光剑，Alyx 一样经久不衰的神级游戏，以及像 Gravity Sketch 类似的严肃的 3D 创作软件。

空间视频

接下来咱们来聊空间视频。你可以将空间视频理解成 3D 电影，就是使用两颗模拟人眼间距的摄像头同时记录画面。确实不是新鲜事。但苹果在 Vision Pro 的流程设计上，将空间视频无缝融合在相册中，你不用像其他 VR 一样，打开 3D 播放器，选择文件，调整格式。他就在你的眼前，就像一个充满魔法的盒子。并且让你能够一键回到那个瞬间。虽然这早就不是什么革命性技术，但是苹果的空间视频，从拍摄，到回看。交互和设计上的雕琢确实足以让人眼前一亮。而且由 Vision Pro 拍摄视频的效果特别好，绝对让你看过一次就难以忘记。

不过也许鉴于大多数人都不会购买 Vision Pro，于是苹果在 iPhone 15 Pro 就推出了手机空间视频拍摄。那我是不是可以先用 iPhone 拍着空间视频，等到 Vision Pro 普及之后，这些在 iPhone 相册里的普通视频就变成了 3D 视频，一举两得。且慢，我要告诉你：iPhone 和 Vision Pro 的空间视频，可以说效果天差地别。完全不是一回事。

首先空间视频的立体感完全来源于两颗摄像头的视差。在 Vision Pro 上摄像头刚好等于人眼的宽度。并且每个镜头的视角都和人眼相同。然而在 iPhone 上。苹果使用广角和超广角裁切作为两个摄像头。这视差小的可怜。除非物体离的特别近，否则视差几乎没有，立体效果打达折扣。那我就拍点离得近物体不就好了。不好意思，两颗镜头光圈不同，最近对焦距离不同。你会得到一个眼睛有背景虚化，一个眼睛没有的效果。而手机也会提示你离远一点。并且由于系统相机只能拍摄 30 帧的空间视频。如果快门速度过快。在大范围移动时，就会导致很强烈的闪烁效果。而如果光线过暗，超广角镜头就有会噪点起飞，影响观感。

所以 iPhone 的空间视频，无论是对光线，运镜，题材都有很多要求。更重要的是，你无法像 Vision Pro 一样立刻知道成片的效果。而你失去了变焦，4K 60fps HDR 的高规格的视频，换来一段大概率不及格的空间视频。所以除非你明确知道空间视频的最终效果。我都不建议使用 iPhone 拍摄空间视频。

开发 & 系统

Vision Pro 发布于 2023 年，然而苹果对 AR 的布局，早在 2017 年就开始了：

WWDC 2017: ARKit——提供最底层的空间定位能力，梦开始的地方
WWDC 2018: USDZ——统一苹果 AR 生态的 3D 文件标准
WWDC 2019: RealityKit——专为 AR 设计的渲染引擎
iPad Pro 2020: 激光雷达 ——首次具备深度感知能力
WWDC 2021: AirPods 支持空间音频 ——提供音频的空间定位能力
WWDC 2022: SharePlay——打通跨设备的远程交流

这一切的技术积淀与升级。都指向了那个苹果眼中下一个时代的计算设备——Vision Pro。

除了强悍的空间计算能力之外，Vision Pro 还拥有苹果更为成熟的移动端 App 开发框架。在 Quest 上，要么使用 Android Studio 开发出一套纯平面的 App。一旦涉及到 3D，就要使用 Unity 或者 Unreal 这些游戏引擎。而在这里面进行 UI 绘制，简直是噩梦般的体验。但在 Vision Pro 中, 原来在 iPhone iPad 上的平面 UI 框架，摇身一变，仅需要增添几行代码，就能显示 3D 物体。而且能够实现一次开发，Vision Pro，移动端的多端部署。无论是纯 2D，还是 2D 与 3D 结合，还是纯 3D。使用 ARKit，RealityKit，Reality Composer 都能获得比在 Unity 中更高的抽象层级，提升开发效率。

何为空间计算

不过从另一个角度来说，Vision Pro 不像是 iPhone 2G 一样从无到有的颠覆性的产物。只能说是一款在苹果多年来恐怖研发能力的加持下符合预期的产品。而作为一款核心是空间计算的设备，甚至某些地方还开了倒车。诶为什么这么说。咱们先要谈谈空间计算的发展历史：

显示器阶段，代表产品：HTC Vive, Valve Index。这些设备对空间的感知仅仅是得到自己离基站的距离和角度，并且由 PC 渲染画面后展示。
自定位阶段，代表产品：Oculus Quest。通过头显摄像头完成定位的方式。优点在于不需要架设基站，但其相较于 VR 体验上并没有本质区别。
混合现实阶段，代表产品：Meta Quest 3, Apple Vision Pro。拥有完善的手势识别，深度感知，房间感知能力，以及与之相关的 API。产生了更多依托于手势与空间的应用形式与场景。

由感知位置，到双手，再到空间。感知能力这才是空间计算进步的核心。

那 Vision Pro 在这方面有什么突破么，很遗憾的是没有。目前苹果开放出的 API 中，开发者能访问的空间信息只有：

手部结构信息
系统识别到的桌子，墙，地面，窗户等不同平面的位置
空间 Mesh
2D 图像的空间锚点
经过预处理的 3D 模型的位置信息

听起来也不少对吧。但这些功能 iPhone 全部都能做到，还能做的更好。例如我几年前写的一个 AR Demo，通过追踪不同电器的面板给用户提供 AR 实时的操作指引。在 iPhone 上能做到每秒钟 30 帧的流畅追踪。然而在 Vision Pro 上帧率只有每秒 1 帧。

并且 iPhone 还能实现物体识别，动物识别，3D 人体追踪，我的另外一个 Demo 通过识别 3D 躯体为用户的引体向上打分。而这在 Vision Pro 上则是完全做不到的。

而造成 visionOS 开倒车的原因之一就是过于严苛的权限控制。在 1.0 摄像头完全不对用户开放，而 2.0 则只针对企业用户开放。这就造成 Vision Pro 丧失了很多应用场景。比如 Quest 三月份开放了摄像头权限。社区中有意思的应用如雨后春笋般涌现。又像是安卓版 Vision Pro 炫酷的圈图即搜功能。也许 Vision Pro 可以说为了用户的隐私安全，但作为一个空间计算设备，这未免也有点因噎废食。

所以在绝大多数 App 都还是平面，感知水平并没有新的提高的 Vision Pro 中。把窗口摆满整个房间就是空间计算的未来了吗。当然不是。所以在这一点上，我觉得 Vision Pro 就像是三体中的人类舰队，拥有在当下看来最顶尖的科技，但在基础学科上并没有从空间感知到理解的突破。

而且当我们被大火的空间计算概念视频所惊叹时，仔细分析一下，如何让设备知道广告牌的位置。如何将素材准确跟踪在人脸上，如何让不同元素出现在对应的位置。这需要的则是更强大的空间理解能力。而空间计算的 iPhone 时刻，似乎还没有到来。

怒其不争的 Apple Intelligence

而说到 AI，大模型 + 空间计算绝对是一个充满潜力的应用场景。但 Vision Pro 又一次成为苹果的吊车尾选手，在 WWDC24 上没有任何关于空间计算 AI 的更新。一年之后才补上了和 iPad 一摸一样的 AI 功能。说真的，又有谁会在 Vision Pro 上用通知总结，写作工具呢。

这是否代表苹果的 AI 团队其实就将 Vision Pro 视作一个大号 iPad 呢？如此慢的进度，如此缺乏想象力的功能，包括前段时间的 Siri 团队对 Apple Intelligence 发布会内容毫不知情的传闻，而唯一做好的功能竟然是 Siri 的新动画，让他的未来更加悲观。而如果苹果在即将到来的 WWDC 25 上还没能兑现自己画了一整年的大饼，又没能拿出点狠活，那我觉得苹果智能也真的翻身无望了。

好了，感谢你能看到这里，以上就是深入锐评 Vision Pro 的全部内容了。而转眼又是一年 WWDC，希望 Vision Pro 能够在 AI 和空间感知能力上有一些新的突破。

视频版：

关于我

我是一位客户端程序员 / 苹果生态独立开发者 / 前不知名数码博主，欢迎关注我，带你探索不一样的数码世界。

> 关注少数派小红书，感受精彩数字生活 🍃

> 实用、好用的正版软件，少数派为你呈现 🚀