WHATCAM ・ ZERO-SHOT IMAGE ID
これ、何?
写真 を 選ぶ か カメラ で 写す だけ で、 AI が 画像認識 して 「これ は 何 か」 を 一致度 付き で 判定。 候補 を 自分 で 決められるゼロショット 分類 も。 無料・端末内処理。
WhatCam の 特徴
写真・カメラで「これ何?」を判定
写真 を 1 枚 選ぶ か、 スマホ の カメラ で 写す だけ。 AI が 画像 を 読み取り、 候補 の 中 で いちばん 近い もの を 一致度 付き で 教えます。 動物 ・ 料理 ・ 果物 ・ 乗り物 ・ 花 ・ 身のまわり の 物 など の 図鑑 から 選んで 判定 できます。
候補を自分で決められる (ゼロショット)
「犬 / 猫 / きつね」「ラーメン / うどん / そば」 の ように、 判定 に 使う 候補 の 言葉 を 自分 で 入力 できます。 AI に 事前 学習 させて いない 言葉 でも、 その場 で 候補 に して 当てはめられる の が CLIP の ゼロショット 分類 の 面白さ です。
一致度をランキング表示
いちばん 近い 答え だけ で なく、 候補 ごと の 一致度 を バー で 並べて 表示。 「猫 80% / きつね 12% / 犬 5%」 の ように、 AI が どれ と 迷った か まで 見える ので、 当てもの や 学び に も 使えます。
端末内 処理 ・ 送信 ゼロ
画像 認識 (CLIP) は すべて あなた の ブラウザ の 中 だけ で 実行 します。 写真 を サーバー に アップロード しない ので、 家族 の 写真 や 仕事 の 資料 でも 安心。 初回 のみ 約 90MB の モデル を 読み込み、 以降 は 端末 内 で 動きます。
よく ある 質問
Q1
これ何? の 画像認識 は どう やって 判定 して いますか?
CLIP という AI が、 写真 と 「ことば の 候補」 を それぞれ 数値 (ベクトル) に 変換 し、 どの 候補 が 写真 に いちばん 近い か を 計算 して います。 あらかじめ 決まった 分類 だけ で なく、 その場 で 渡した 候補 の 中 から 選べる の が 特徴 で、 これ を ゼロショット 画像分類 と 呼びます。
Q2
どんな 写真 が 正しく 判定 されやすい ですか?
対象 が 画面 の 中央 に 大きく はっきり 写って いる 写真 が 当たりやすい です。 また 図鑑 の カテゴリ を 選ぶ と 候補 が 絞られる ので 精度 が 上がります。 用意 した イラスト の 例 でも 試せます が、 スマホ で 撮った 実際 の 写真 の ほう が AI は 本領 を 発揮 します。
Q3
候補 を 自分 で 入れる とき の コツ は?
日本語 の 一般的 な 言葉 (犬 / 猫 / りんご など) は 自動 で 英語 に 変換 して 判定 します。 珍しい 言葉 や 思いどおり に 当たらない とき は、 英単語 で 入力 する と 精度 が 上がります。 CLIP は 英語 で 学習 して いる ため です。 候補 は 2 つ 以上 入れて ください。
Q4
写真 や カメラ の 映像 は アップロード されますか?
され ません。 画像 認識 に 使う AI モデル (CLIP) は 初回 に 一度 だけ ダウンロード され、 以降 は あなた の ブラウザ の 中 で 動きます。 写真 や カメラ の 映像 は 端末 の 外 に 出ない ので、 個人 の 写真 でも 安心 して 試せます。
Q5
ai-lab の 他 の サービス と の 関係 は?
ai-lab は AI を 使った Web ツール を 作って 公開 する 実験 ラボ。 WhatCam は 写真 を 端末内 で AI 処理 する 系 の 1 本 で、 写真 3D化 (depth-cast) ・ 背景 透過 (bg-snap) ・ 色覚 シミュレーション (chroma-lens) などと 同じ 仲間。 こちら は 「これ は 何 か を 当てる」 役割 を 受け持ちます。