[text-pluck · on-device ocr]
スクショ、レシート、看板、紙の写真。 tesseract.js を WebAssembly で動かして、画像をアップロードせずに 文字を抜き出します。日本語・英語・中国語・韓国語に対応。
[ ./how_it_works ]
step / 01
スクショ・レシート・名刺・看板の写真など、文字が写っている画像をドロップ。画像はブラウザ内のOCRに直接渡され、サーバーには送られない。
step / 02
初回のみ言語モデル (~5-15MB / 日本語の場合) をダウンロードしてキャッシュ。以降はオフラインでも動く。スキャンビームがリアルタイムに走る。
step / 03
認識テキストと信頼度スコアを表示。コピー / .txt ダウンロードに対応。言語を切り替えると即時に再OCRする。
[ ./faq ]
送られません。tesseract.js は WebAssembly でブラウザ内に OCR エンジンを呼び込む構成で、画像処理はすべてあなたのデバイス内で完結します。私たちのサーバーに画像が届くことはありません。 (初回のみ言語モデルファイル `*.traineddata` をダウンロードします。これはモデル本体の取得で、あなたの画像ではありません)
日本語 / 日本語+英語 / 英語 / 中文 (簡体) / 韓国語 を選べます。tesseract.js は 100 以上の言語に対応しているので、要望があれば追加します。
得意な対象 (PDFから書き出した活字PDFのスクショ、メモアプリの文章、メール本文の画面キャプチャ等) なら信頼度 80-95% で出ます。苦手な対象 (ロゴ、装飾的なセリフフォント、ステンシル、手書き文字、斜めから撮った写真、複雑な背景、低解像度) は信頼度が大きく落ちます。信頼度が60%を下回ると画面上に警告を出します。今後 TrOCR 等のTransformer系モデルへの切替オプションを追加予定です。
tesseract は装飾フォントやステンシル風のロゴが苦手です。これは tesseract.js の構造的な限界で、現状の精度では実用にならないケースがあります。代替として『英語のみ』へ言語切替・スクショの解像度を上げて再試行・ロゴ部分だけクロップ、を試してみてください。それでも厳しい場合は、TrOCR モードの実装をお待ちください。
ブラウザの ImageBitmap が読める形式 (jpg / png / webp / gif / bmp など)。スクリーンショットや撮影写真がそのまま使えます。
メディア処理ラボの4本目です。voice-scribe (音声→テキスト) と対をなす画像→テキストとして、ラボのカバー範囲を音声・動画・画像・OCR まで広げる位置づけです。すべて『重い処理はブラウザで完結する』という同じ前提で作っています。
[ ./journal ]