最近向开发者推出的 Apple Intelligence 语音转文字工具,不仅速度快、准确性高,而且通常比 OpenAI 长期以来的对应工具快上两倍。 这可能再次证明苹果虽然进入市场较晚,但却能做到最好。 自OpenAI于2022年9月发布其Whisper语音转文字技术以来,它已成为数十款应用程序的标准模型,但现在这种情况可能不会持续下去。 在今年的 WWDC 上,Apple 宣布将其 Apple Intelligence 工具开放给第三方开发者。 尽管苹果几乎没有提供任何细节,也当然没有特别宣传其语音转文字工具,但开发者们现在正逐渐发掘它所带来的各种功能。

开发者的发现与Yap工具
开发者 John Voorhees 和他的儿子据报道花了约十分钟,构建了一个快速工具,以便在 Mac 上使用 Apple 的语音转文字技术。 具体来说,他们使用了Apple Speech framework中的SpeechAnalyzer和SpeechTranscriber元件,这些组件是作为Apple macOS Tahoe和iOS 26beta版的一部分向开发者发布的。 这个快速工具是一个命令行工具,他们称之为 Yap,目前已开放从 Github 下载。 它需要一个 Apple 开发者帐号和 macOS Tahoe 才能运行。
效能比较与测试结果
AI 语音转文字工具主要依赖所使用的大型语言模型(LLM),因此比较并非总是那么简单。 然而,将 Apple Intelligence 与 MacWhisper 的 Large V3 Turbo 模型进行比较,却展现了显著的差异。 Apple 的 Speech framework 工具始终比这个基于 Whisper 的应用程序快上两倍多。 一项针对 7GB 的 4K 视频文件测试显示,Apple Intelligence 在 45 秒内将其读取并转录为字幕。 相比之下,使用Large V3 Turbo大型语言模型的MacWhisper总共花费了1分41秒,而MacWhisper的Large C2模型则需要3分55秒才能完成相同的工作。 尽管这些转录内容都不是百分之百完美,都需要后续编辑,但 Apple Intelligence 版本的准确性与基于 Whisper 的工具相当,且速度快上两倍。
技术的广泛应用
除了向开发者发布这些 Apple Intelligence 工具外,Apple 也发布了详细的视频,说明如何实作这项技术。 当然,该公司也已将相同的技术应用于其 macOS 26、iOS 26 等 beta 版本中。 这项技术正是驱动其在信息应用程序和电话通话中即时翻译功能的幕后功臣。