Question 1

本当に音声はサーバーに送られないのですか？

Accepted Answer

送られません。 Whisper の推論は transformers.js を通じてブラウザ内 (WebAssembly + ONNX Runtime Web) で動きます。録音やファイルがネットワーク越しに私たちのサーバーへ届くことはありません。 (初回のみ Hugging Face Hub からモデル本体をダウンロードします。これはモデルファイルの取得で、あなたの音声ではありません)

Question 2

どのくらいの長さまで使えますか？

Accepted Answer

30 分前後までを推奨。 chunk 30 秒・stride 5 秒で逐次推論しますが、tiny / base モデルはブラウザのメモリと CPU に依存します。長尺はクラッシュリスクがあります。

Question 3

対応している音声形式は？

Accepted Answer

ブラウザの AudioContext.decodeAudioData が読める形式 (mp3 / wav / m4a / webm / ogg など)。動画ファイル (mp4 / webm) も音声トラックがあれば文字起こし可能です。

Question 4

tiny と base の違いは？

Accepted Answer

tiny は ~75MB で速い。base は ~145MB で精度が少し上がる代わりにダウンロードと推論が遅い。日本語の長い文章なら base、短い会話なら tiny が体感が良いことが多いです。

Question 5

なぜブラウザだけにこだわるのですか？

Accepted Answer

音声は個人情報の塊だからです。会議録、取材、医療相談、面接、家族の通話。これらをアップロードしなければ使えないサービスは、安心して使えません。Whisperが動かせる時代になったので、まずはブラウザ完結で出します。

音声を、
ブラウザだけで
文字にする。

仕組み。

音声を渡す

ブラウザ内で推論

テキスト / 字幕で受け取る

よくある質問。

開発ログ。

VoiceScribe ができるまで — ブラウザだけでWhisperを動かして音声を文字に変える設計

音声を、ブラウザだけで文字にする。