AIAI実践ログ

Whisper

OpenAIの高精度な音声認識AI。音声ファイルをテキストに自動変換。無料・多言語対応・ローカル動作可。

実用検証無料日本語対応あり

このツールでできること

OpenAIが開発した音声認識AIです。録音・動画ファイルの文字起こしを高精度で実行します。日本語の精度が特に高く、方言・専門用語・早口にも対応しています。完全無料で使えるモデルがあり、APIを使えば大量処理も低コストで可能です。

主な機能

  • 高精度な音声→テキスト変換(99言語対応)
  • タイムスタンプ付きの文字起こし
  • 翻訳機能(多言語音声を英語テキストに)
  • ローカル実行(whisper.cppで完全オフライン可)
  • OpenAI API経由での利用(1分あたり$0.006)

基本の使い方

① APIまたはサードパーティアプリで使う(推奨)
コードを書かずに使うには、WhisperKitアプリ(Mac)・MacWhisper・Descript等のWhisper搭載アプリを使う。音声ファイルをドラッグ&ドロップするだけで文字起こし完了。

② OpenAI APIで呼び出す
ChatGPT PlusのGPT-4oはWhisperを内包している。音声ファイルを添付して「文字起こしして」と依頼するだけで動く。

③ ローカルで動かす(上級者向け)
whisper.cppをインストールするとAPIキーなし・完全無料でローカル実行できる。長時間音声の大量処理に向いている。

こんな場面で使える

会議・インタビューの文字起こし:Zoomやスマホの録音をWhisperに通すだけで議事録の素材が完成する。手入力の議事録作業がなくなる

音声メモ→記事変換:スマホで録音したアイデアメモをWhisperで文字起こし→ChatGPTで記事化するフローで、移動中のアイデアを無駄なく活用できる

YouTube動画の字幕生成:自分のYouTube動画をWhisperで文字起こしして、字幕ファイル(SRT形式)として書き出せる

料金・プラン

  • OpenAI API:$0.006/分(10分の音声で約$0.06)
  • ローカル版(whisper.cpp):完全無料・無制限
  • MacWhisper(Mac専用アプリ):基本機能無料・高度な機能は買い切り$29

使いこなすコツ

  • 日本語の精度はOtter.aiより高い。日本語メインの会議・インタビューにはWhisperの方が向いている
  • 文字起こし後の整形はChatGPTに任せる。「以下の文字起こしを読みやすい形式に整えて、話者を区別して」と続けると完成度が上がる
  • 長時間音声(1時間以上)はAPIより無料のローカル版の方がコスト効率が良い

活用例はこれから拡充予定です

ログインすると、使ってみた感想・コツ・注意点を追記できます

ログインすると追記できます。アカウント作成はこちら

コメント0

ログインするとコメントできます。アカウント作成はこちら

まだコメントはありません。最初のコメントを書いてみましょう。