Question 1

本当に画像はサーバーに送られないのですか？

Accepted Answer

送られません。tesseract.js は WebAssembly でブラウザ内に OCR エンジンを呼び込む構成で、画像処理はすべてあなたのデバイス内で完結します。私たちのサーバーに画像が届くことはありません。 (初回のみ言語モデルファイル `*.traineddata` をダウンロードします。これはモデル本体の取得で、あなたの画像ではありません)

Question 2

どの言語に対応していますか？

Accepted Answer

日本語 / 日本語+英語 / 英語 / 中文 (簡体) / 韓国語 を選べます。tesseract.js は 100 以上の言語に対応しているので、要望があれば追加します。

Question 3

認識精度はどのくらい？

Accepted Answer

得意な対象 (PDFから書き出した活字PDFのスクショ、メモアプリの文章、メール本文の画面キャプチャ等) なら信頼度 80-95% で出ます。苦手な対象 (ロゴ、装飾的なセリフフォント、ステンシル、手書き文字、斜めから撮った写真、複雑な背景、低解像度) は信頼度が大きく落ちます。信頼度が60%を下回ると画面上に警告を出します。今後 TrOCR 等のTransformer系モデルへの切替オプションを追加予定です。

Question 4

ロゴの文字が読めません。

Accepted Answer

tesseract は装飾フォントやステンシル風のロゴが苦手です。これは tesseract.js の構造的な限界で、現状の精度では実用にならないケースがあります。代替として『英語のみ』へ言語切替・スクショの解像度を上げて再試行・ロゴ部分だけクロップ、を試してみてください。それでも厳しい場合は、TrOCR モードの実装をお待ちください。

Question 5

対応している画像形式は？

Accepted Answer

ブラウザの ImageBitmap が読める形式 (jpg / png / webp / gif / bmp など)。スクリーンショットや撮影写真がそのまま使えます。

Question 6

voice-scribe / bg-snap との関係は？

Accepted Answer

メディア処理ラボの4本目です。voice-scribe (音声→テキスト) と対をなす画像→テキストとして、ラボのカバー範囲を音声・動画・画像・OCR まで広げる位置づけです。すべて『重い処理はブラウザで完結する』という同じ前提で作っています。

画像の文字を、
ブラウザだけで
抜き出す。

仕組み。

画像を渡す

WASM上でOCR

テキストで受け取る

よくある質問。