
Apple Intelligenceのデバイス内文字起こし機能は、音声テキスト変換のパフォーマンスに革命をもたらし、OpenAIのWhisperモデルの2倍以上の速度を実現しています。MacStoriesが詳細に報じたハンズオンテストによると、 Appleの新しい音声APIは、最適化されたデバイス内処理を活用して超高速の文字起こしを実現し、音声駆動型アプリケーションの効率性と応答性の新たなベンチマークを確立しました。
MacStoriesのジョン・ボーヒーズ
:
これらのテクノロジーはまだ初期段階ですが、講義、ポッドキャスト、YouTube 動画などから音声文字変換を使用してテキストを作成する人にとって、そのスピードだけでも画期的なものであると私は言えます。
他のツールでイライラするのは、その遅さです。ほとんどのツールは、2022年にリリースされたOpenAIのオープンソース音声テキスト変換モデル「Whisper」をベースに構築されています…
息子のフィンに、SpeechAnalyzerとSpeechTranscriberを使って動画や音声ファイルを文字起こしするコマンドラインツールを作るにはどうすればいいか尋ねました。彼は10分くらいでできるだろうと計算し、その通りでした。結局、WWDC後にmacOS Tahoeをインストールするのにかかった時間は、フィンがYap(音声ファイルと動画ファイルを入力としてSRT形式とTXT形式の文字起こしを出力するシンプルなコマンドラインユーティリティ)を作るのにかかった時間よりも長かったです。
昨日、ついにTahoeに飛びつき、Yapをすぐにインストールしました。AppStoriesのエピソード441(約34分)の7GB 4Kビデオバージョンをダウンロードし、Yapで再生してみました。SRTファイルの生成にはわずか45秒しかかかりませんでした。
次に、同じファイルをVidCapとMacWhisperのV2 LargeとV3 Turboモデルで実行しました。各アプリとモデルの結果は次のとおりです。
この組み合わせにより、Apple プラットフォーム上の文字起こしアプリのデフォルトの文字起こしモデルとして Whisper が置き換えられると私は確信しています。
MacDailyNews の見解:同じ精度を維持しながら 2 倍以上の速度は素晴らしいです!
MacDailyNewsを応援していただき、購読者限定の記事、コメント、チャットなどをお楽しみください(macdailynews.substack.com)にご登録ください。ありがとうございます!
このリンクを使用して Amazon で買い物をすると、追加費用なしで MacDailyNews をサポートできます。
[情報を教えてくれたMacDailyNews読者の「Fred Mertz」氏に感謝します。]
ロンドン警察は、盗難iPhone4万台を中国に密輸した疑いのある犯罪組織を壊滅させた。これは同組織による過去最大のiPhone窃盗事件となった。
Appleは本日、iOS 26.1、iPadOS 26.1、macOS Tahoe 26.1、tvOS 26.1、watchOS 26.1、visionOS 26.1の2番目のベータ版を開発者向けにリリースしました…
テイラー・スウィフトは最新アルバム「ザ・ライフ・オブ・ア・ショーガール」でApple Music、Spotify、Amazonのストリーミング記録を破り、歴史を築いた。
新しい Apple Watch Series 11 は、これまでで最も包括的な健康機能、より長いバッテリー寿命、さらに耐久性の高いカバーガラスなどを提供します…
SpaceX が EchoStar から 170 億ドルで取得した周波数ライセンスは、Starlink の衛星からスマートフォンへのサービスを強化することになり、…
