[mind-cell · on-device llm chat]

AIチャットを、
ブラウザだけ
動かす。

会話の内容を外に出さずに使える AI チャット。 WebGPU と WebLLM (Qwen 2.5 0.5B / Llama 3.2 1B / Phi 3.5) で LLM をあなたのデバイス内で動かします。 オフライン後も使える、 プライベートな AI 相手。

on-device webllm · webgpu qwen · llama · phi

[ ./how_it_works ]

仕組み。

step / 01

メッセージを送る

送信ボタンを押すと、初回だけモデル本体 (Qwen 2.5 0.5B = ~400MB) を WebLLM がダウンロード。 以降は完全オフラインで動く。

step / 02

WebGPU でローカル推論

あなたのデバイスの GPU だけを使って LLM が動く。 文字単位でストリーミング応答。 会話履歴も一切外には出ない。

step / 03

モデルを切り替える

Qwen 0.5B (~400MB) / Llama 1B (~900MB) / Phi 3.5 mini (~2.2GB) を選択可能。 重いモデルほど賢いが、ダウンロードと推論は遅くなる。

[ ./faq ]

よくある質問。

本当にメッセージはサーバーに送られないのですか?+

送られません。MindCell は WebLLM (@mlc-ai/web-llm) を WebGPU で動かしているだけで、推論はすべてあなたのデバイス内のGPUで完結します。 会話内容が私たちのサーバーや OpenAI / Anthropic 等の外部サービスに届くことはありません。(初回のみモデル本体を Hugging Face CDN からダウンロードします。これはモデルファイルの取得で、あなたの会話ではありません)

何が必要ですか?+

WebGPU 対応ブラウザ (Chrome 113+ / Edge / Opera のデスクトップ版が最も安定)。 Safari は Tech Preview / iOS 18+ で実験的サポート。Firefox は Nightly のみ。 メモリは 4GB 以上 (Qwen 0.5B 利用時)、 8GB 以上推奨 (Llama 1B / Phi 3.5)。

回答品質はどうですか?+

Qwen 2.5 0.5B は『軽量』 を最優先したモデルなので、 ChatGPT / Claude のような大規模モデルには明らかに劣ります。 短い質問への回答、簡単な要約、定型タスクには使えますが、 複雑な推論や厳密な事実確認には向きません。 用途が合えば Llama 3.2 1B / Phi 3.5 mini に切り替えると精度は上がります。

なぜブラウザだけにこだわるのですか?+

AI チャットに入れる内容は、 個人的だったり機密だったりすることが多いです。 仕事のメール、健康相談、家族のこと、契約書のドラフト。 これらを外部 API に送らずに使える選択肢があるべきです。 WebGPU と量子化済みモデルが揃った今、その選択肢はやっと現実的になりました。

他のメディアサービスとの関係は?+

voice-scribe / clip-cast / bg-snap / text-pluck / pdf-anvil / pixel-lift / pic-flip のメディア処理 7本に続く 8本目です。 メディアから一歩出て、 テキスト生成 (会話 AI) もブラウザだけで成立する、 という別軸の実証になります。

[ ./journal ]

開発ログ。

MindCell

MindCell ができるまで — ブラウザだけで LLM を動かすチャット設計

@mlc-ai/web-llm を WebGPU 上で動かして、 ローカル推論の AI チャットをブラウザ完結で実装した Webサービスの設計記録。 ストリーミング応答、モデルロード進捗、対応外環境の扱いまで解説します。

read log →

all_entries →

← back to ai-lab.org