AI Dev Lab
HumScore

HumScore ができるまで — YIN + Krumhansl + 24 トライアドで 鼻歌を 楽譜化する

音処理 ライン 3 本目 (voice-scribe 文字起こし / pitch-flip ボイスチェンジ / hum-score 採譜)、 「音 → 文字 / 音 → 音 / 音 → 構造化」 3 軸完成。 YIN ピッチ検出 (差分関数 + 累積平均正規化 + パラボリック補間) + Krumhansl-Schmuckler 調推定 (1990 音楽認知プロファイル × Pearson 相関) + 24 トライアド 最近傍 コード推定 + Standard MIDI File format 0 (PPQN 480) バイト書き出し + OscillatorNode で 内蔵サンプル プログラム生成 + SVG 五線譜 (ト音記号 + 加線 + 符頭 + 符幹 + 旗 + シャープ + 音名ラベル) を 純 JS で 実装した エンジンの設計記録。 カセット 80s ホームレコ スタジオ motif。

この記事の本文はまだ準備中です。

[ ./next_action ]

読んだら、 HumScore を実際に動かす。

この開発ログは HumScore をどう作ったかの記録です。 読み終わったらそのままサービス本体へ戻って、 実物で価値を確かめてください。

[ ./related_logs ]

関連する開発ログ

all logs →
ToonCast

ToonCast ができるまで — AnimeGANv2 をブラウザで動かす

AnimeGANv2 の小さな ONNX (約9MB) を onnxruntime-web (単一スレッド WASM=COOP/COEP不要、 color-revive で承認済みライブラリの再利用) で実行。 512x512・[-1,1] 正規化で推論し、 結果を元解像度に戻して表示する設計記録。 写真は端末内処理。

read log →
ColorRevive

ColorRevive ができるまで — onnxruntime-web で白黒写真をカラー化

DeOldify の量子化 ONNX を onnxruntime-web (CDN side-load・単一スレッド WASM=COOP/COEP不要) で実行。 256x256 でモデル推論し、 輝度は元写真・色だけ AI を YCbCr で再合成して輪郭を保つ設計記録。 写真は端末内処理。

read log →
PhotoTwin

PhotoTwin ができるまで — CLIP画像埋め込みで似た写真を見つける

CLIP (Xenova/clip-vit-base-patch32) の image-feature-extraction を transformers.js の CDN ESM で side-load し、 各写真を正規化ベクトル化。 cosine 類似度で重複・似た写真をブラウザ内で検出する設計記録 (新ライブラリ追加なし=what-cam と同じ CLIP の再利用)。

read log →
AkinFind

AkinFind ができるまで — 文章embeddingsで意味検索をブラウザ内に

多言語の文章埋め込みモデル (Xenova/multilingual-e5-small) を transformers.js の CDN ESM で side-load し、 各文を正規化ベクトル化。 cosine 類似度で意味検索と似ている文ペア検出を全て端末内で行う設計記録。

read log →
WhatCam

WhatCam ができるまで — CLIP のゼロショット画像分類をブラウザで動かす

CLIP (Xenova/clip-vit-base-patch32) を transformers.js の CDN ESM で side-load し、 写真と候補ラベルの近さをブラウザ内で計算。 日本語ラベルを英語プロンプトに変換し、 図鑑と自由入力の両モードで「これ何?」を判定する設計記録。

read log →
DepthCast

DepthCast ができるまで — 1枚の写真をAIの深度推定で立体にする

Depth Anything (transformers.js) を CDN ESM で side-load し、 1枚の写真から深度マップを推定。 WebGL2 フラグメントシェーダで深度に比例した視差 (iterative backward parallax) を作り、 赤青アナグリフ / WebM 書き出しまで端末内で完結させた設計記録。

read log →