[text-pluck · on-device ocr]

画像の文字を、
ブラウザだけ
抜き出す。

スクショ、レシート、看板、紙の写真。 tesseract.js を WebAssembly で動かして、画像をアップロードせずに 文字を抜き出します。日本語・英語・中国語・韓国語に対応。

on-device tesseract · wasm jpn · eng · chi · kor

[ ./how_it_works ]

仕組み。

step / 01

画像を渡す

スクショ・レシート・名刺・看板の写真など、文字が写っている画像をドロップ。画像はブラウザ内のOCRに直接渡され、サーバーには送られない。

step / 02

WASM上でOCR

初回のみ言語モデル (~5-15MB / 日本語の場合) をダウンロードしてキャッシュ。以降はオフラインでも動く。スキャンビームがリアルタイムに走る。

step / 03

テキストで受け取る

認識テキストと信頼度スコアを表示。コピー / .txt ダウンロードに対応。言語を切り替えると即時に再OCRする。

[ ./faq ]

よくある質問。

本当に画像はサーバーに送られないのですか?+

送られません。tesseract.js は WebAssembly でブラウザ内に OCR エンジンを呼び込む構成で、画像処理はすべてあなたのデバイス内で完結します。私たちのサーバーに画像が届くことはありません。 (初回のみ言語モデルファイル `*.traineddata` をダウンロードします。これはモデル本体の取得で、あなたの画像ではありません)

どの言語に対応していますか?+

日本語 / 日本語+英語 / 英語 / 中文 (簡体) / 韓国語 を選べます。tesseract.js は 100 以上の言語に対応しているので、要望があれば追加します。

認識精度はどのくらい?+

得意な対象 (PDFから書き出した活字PDFのスクショ、メモアプリの文章、メール本文の画面キャプチャ等) なら信頼度 80-95% で出ます。苦手な対象 (ロゴ、装飾的なセリフフォント、ステンシル、手書き文字、斜めから撮った写真、複雑な背景、低解像度) は信頼度が大きく落ちます。信頼度が60%を下回ると画面上に警告を出します。今後 TrOCR 等のTransformer系モデルへの切替オプションを追加予定です。

ロゴの文字が読めません。+

tesseract は装飾フォントやステンシル風のロゴが苦手です。これは tesseract.js の構造的な限界で、現状の精度では実用にならないケースがあります。代替として『英語のみ』へ言語切替・スクショの解像度を上げて再試行・ロゴ部分だけクロップ、を試してみてください。それでも厳しい場合は、TrOCR モードの実装をお待ちください。

対応している画像形式は?+

ブラウザの ImageBitmap が読める形式 (jpg / png / webp / gif / bmp など)。スクリーンショットや撮影写真がそのまま使えます。

voice-scribe / bg-snap との関係は?+

メディア処理ラボの4本目です。voice-scribe (音声→テキスト) と対をなす画像→テキストとして、ラボのカバー範囲を音声・動画・画像・OCR まで広げる位置づけです。すべて『重い処理はブラウザで完結する』という同じ前提で作っています。

[ ./journal ]

開発ログ。

TextPluck

TextPluck ができるまで — ブラウザ内tesseractで画像から文字を抜く設計

tesseract.js + WASM SIMD でブラウザ完結のOCRを実装したWebサービスの設計記録。日本語OCRの落とし穴、UI上の工夫、スキャンビーム演出までを解説します。

read log →

all_entries →

← back to ai-lab.org