AI · LAB · DAILY
CSV → DASHBOARD · STATISTICS · CORRELATIONS
Chart Press.
Excel を 開かずに、 ブラウザ に CSV を 落とせば、 列の 型 / 要約統計 / ヒストグラム / 相関 が 即 印刷される。 機密データ は あなたの PC から 一歩も 出ない。
── Composing Desk ──
FEATURES · FIVE STORIES
The Five Stories
PAGE A1 · LEAD STORY
All the figures fit to print.
営業会議 で 渡される CSV、 役所 の オープンデータ、 アンケート 集計結果 — 表計算ソフト を 開かなくても、 ブラウザに 落として 投げるだけで、 列の 型 / 件数 / 平均 / 中央値 / 分布 が その場で 印刷される。
ChartPress は CSV / TSV を 受け取り、 純 JavaScript の 独自 パーサ で 列に 分解、 各列が 数値か 日付か カテゴリか テキストか を 80% 閾値 で 自動判定 する。 数値列に対しては 件数 / 欠損 / 平均 / 中央値 / Q1 / Q3 / 最小 / 最大 / 標準偏差 / 合計 を 一括計算、 14 階級 ヒストグラム を 描く。 カテゴリ列に対しては 上位 6 カテゴリの 度数と 比率を 棒で 並べる。 表計算ソフト を 開かずに、 一目で 全体像を 掴むための 第一稿である。
PAGE A2 · METHODS
How the type-detector reads your columns.
型推定の 8 割閾値 ルール、 カンマ区切り 数値 / パーセント / 指数表記 / ISO 日付 / 和暦 日付 の 受理、 カテゴリ判定 の 「ユニーク 20 以下 かつ 半数以下」 ルール — その内側を 開く。
列ごとに、 (1) 非空セルを 抜き出す、 (2) 「-12,345.6」 「12%」 「1.23e6」 が parseable な 数値か を 試す、 (3) 「2024-01-15」 「2024/1/15」 「2024年1月15日」 が ISO/和暦の 日付か を 試す。 数値が 80% 以上なら numeric、 日付が 80% 以上なら date、 そうでなく ユニーク値が 20 個以下 かつ 半数以下なら categorical、 残りは text。 この閾値 は entertainment data analysis に振った 設計判断で、 厳密な型検査 を 求めるなら polars / pandas を 使うべき。
PAGE A3 · CORRELATIONS
Pearson, the editor's red marker.
数値列が 2 本以上 ある場合、 全ペアの ピアソン 相関係数 が ヒートマップ として 印刷される。 赤い枡は 強い 正、 青い枡は 強い 負、 クリーム色は 無相関。
Pearson 相関係数 r は -1 から +1 の 値を とり、 二つの 数値列が どれだけ 一緒に 動くかを 表す。 r = 0.8 を 超えたら 「強い相関」、 0.5-0.8 で 「中程度」、 0.5 以下で 「弱い」 が 経験則。 ただし 相関は 因果ではない。 「アイスクリーム の 売上」 と 「水難事故」 は 強く 相関するが、 共通の 第三変数 (気温) を 経由している。 ChartPress の 相関 ヒートマップ は 探索的データ分析 (EDA) の 初手 として 使い、 因果は 別途 検証すること。
PAGE A4 · PRIVACY
Your CSV never leaves the room.
投入された CSV、 抽出された 値、 計算された 統計量、 描画された ヒストグラム — その すべてが、 あなたの ブラウザの JavaScript の 中だけで 完結する。 サーバーには 一文字も 送られない。
ネットワーク タブ を 開いて 確認できる。 ChartPress 自身は サーバー 通信 を 一切 起こさない。 ファイル を 開いても、 ペースト しても、 サンプル を 選んでも、 同じ 結果が ローカルで 計算される。 アカウント / ログイン / トラッキング クッキー は 存在しない。 会社の 機密 売上 データ、 病院の 診療データ、 学校の 成績データ — 第三者に 一文字も 渡らない 安全な 一階の 統計 を、 個人 PC の 中だけで 完結させる ことが 設計目標である。
PAGE A5 · LIMITS & HONESTY
What ChartPress is not.
本格的な 統計解析 / 機械学習 / 多変量解析 は 行わない。 100 万行 を 超える 巨大 CSV には 適していない。 厳密な 統計検定 や 回帰 は 別の ツール を 使うべき。
ChartPress は EDA (探索的データ分析) の 第一段階、 「データを 一目で 見る」 ための ツール である。 t 検定 / ANOVA / 線形回帰 / 主成分分析 / クラスタリング は 含まない。 数百行 〜 1 万行 の CSV を 想定し、 100 万行を 超える ビッグデータ は ブラウザ メモリの 制約で 重くなる。 厳密な 検定 / 回帰 / モデリング が 必要なら、 R / Python (pandas / scikit-learn) / Tableau / Power BI を 使うべき。 ChartPress は それらの 「前段」 — データを 受け取って 最初の 5 分 で 全体像を 掴む 用途 に 振った 設計である。
QUESTIONS FROM THE WIRE
Reader's Questions
どんな CSV が 読めますか?
RFC 4180 準拠 の CSV、 タブ区切り の TSV、 引用符付き セル、 改行を 含む セル に 対応。 文字コードは UTF-8 推奨。 Excel から の 書き出し では 「UTF-8 BOM 付き CSV」 を 選ぶと 文字化けしない。 シフト JIS の CSV は 化ける可能性がある。
Excel ファイル (.xlsx) は 開けますか?
現バージョン では 未対応。 Excel で 「名前を付けて保存」 → 「CSV UTF-8」 で 書き出してから 投入してほしい。 .xlsx を 直接読む 機能は backlog に 入っている。
型 を 手動で 変えられますか?
現バージョン では 自動判定のみ。 数値列なのに テキスト 扱いに なってしまう (例: ハイフン 区切り 電話番号) ような ケース で 手動 override する UI は backlog。 暫定的には CSV を 編集してから 投入してほしい。
結果を PNG / PDF で 保存できますか?
現バージョン では ブラウザ の 印刷 機能 (Ctrl+P / Cmd+P) で PDF に できる。 ヒストグラム 単体を PNG で 書き出す ボタンは backlog 候補。
100 万行の CSV を 投げたら どうなりますか?
JavaScript が ブラウザ タブ の メモリを 数百 MB 使い、 描画が 重くなる。 数万行 までを 想定。 それ以上 は polars / pandas / DuckDB-WASM を 使うべき。
ai-lab の 他の サービス と 連携 しますか?
viz 系 と して 唯一の 「ユーザー入力 viz」 ライン。 wiki-orbit (Wikipedia 知識ネットワーク) / astro-cast (太陽系 3D) / pop-drift (人口ピラミッド) / grant-board (補助金) と 並ぶ 5 本柱 の 最終 ピース。 マネー計算機 8 本 (coin-stack / roof-fund 他) で 計算した 結果を CSV 化 して ChartPress に 投げる、 という 連携が 自然。
商用利用 できますか?
可。 計算結果 / SVG / スクショ を 自由に 業務 / 商用 で 使える。 サーバー送信 ゼロ なので、 機密データ を 投入しても 漏洩する 経路が ない (=ローカル PC の 信頼境界 内で 完結する) のが 本ツールの 最大の 設計上の 売り である。