Appleの新しい文字起こしAPI「SpeechAnalyzer」がスピードテストでOpenAIのWhisperを圧倒


Appleの年次開発者カンファレンス「WWDC25」で発表されたiOS 26やmacOS Tahoeには、Appleの新しい音声テキスト変換API「SpeechAnalyzer」が導入されています。Apple関連のニュースサイト・MacStoriesの編集者であるフィン・ボーヒーズ氏がこのSpeechAnalyzerをテストした結果、OpenAIの文字起こしAI・Whisperと比較してより高速に文字起こしができることが判明しました。
Hands-On: How Apple's New Speech APIs Outpace Whisper for Lightning-Fast Transcription - MacStories
https://www.macstories.net/stories/hands-on-how-apples-new-speech-apis-outpace-whisper-for-lightning-fast-transcription/


Apple's New Transcription APIs Blow Past Whisper in Speed Tests - MacRumors
https://www.macrumors.com/2025/06/18/apple-transcription-api-faster-than-whisper/
Appleは、メモやボイスメモなどのアプリのリアルタイム文字起こし機能や、iOS 18.1の通話音声文字起こし機能に、独自のネイティブ音声フレームワークを使用しています。iOS 26とmacOS Tahoeでは効率性を向上させるため、SpeechAnalyzerクラスとSpeechTranscriberモジュールが導入されました。
このmacOS TahoeのSpeechAnalyzerを使って文字起こしができるCLI「Yap」を、ボーヒーズ氏の息子でエンジニアのフィン氏が開発。フィン氏から「SpeechAnalyzerは処理が非常に高速」と聞いたボーヒーズ氏はYapを用いて、長さ約34分・解像度4K・ファイルサイズ約7GBの動画ファイルの音声をテキストに変換しました。その結果、わずか45秒でテキスト変換の処理が完了したとのこと。
以下のムービーは、実際にYapで文字起こしを行っている様子。

ボーヒーズ氏によれば、同じファイルをWhisperのLarge-v3モデルで行うと文字起こしに1分41秒かかったそうで、SpeechAnalyzerは処理時間が55%も短縮できていることになります。また、Whisperベースの他のツールでは、VidCapだと1分55秒、MacWhisperでLarge-v2モデルを使うと3分55秒かかったそうで、SpeechAnalyzer APIで文字起こしが爆速になっていることがわかります。文字起こししたテキストの品質については、ボーヒーズ氏は「目立った違いはない」と評価しています。


複数の動画や長いコンテンツで文字起こし処理を行う場合、パフォーマンスの向上は飛躍的に増加するとボーヒーズ氏は指摘。字幕作成や講義の書き起こしを定期的に行う人にとって、この効率性の向上は数時間もの時間を節約できる可能性があります。
なお、ボーヒーズ氏が開発したYapのソースコードはGitHubで、CC0 1.0 全世界ライセンスのもとで公開されています。なお、必須環境であるmacOS Tahoeは記事作成時点で開発者向けベータ版のみがリリースされており、Apple Developer Programに参加している開発者ユーザーだけが利用できます。
GitHub - finnvoor/yap: 🗣 A CLI for on-device speech transcription using Speech.framework on macOS 26
https://github.com/finnvoor/yap/

元記事を読む