AI蒸留論争：なぜDeepSeekはClaudeを盗んだのか

Published: Feb. 24, 2026, 3:34 p.m. UTC / Updated: Feb. 24, 2026, 4:35 p.m. UTC

日本語

導入としてのAI蒸留論争：なぜDeepSeekはClaudeを盗んだのか

A. プロセス情報

議論の前提・背景
ユーザーが「Deepseekがクローズドモデル（ChatGPTやClaude）を蒸留しているというが、技術的に意味があるのか」という本質的な疑問を提起。初期説明が不正確であったため、修正を含む詳細な技術的議論に発展。

ユーザーの目標・意図

モデル蒸留の技術的実現可能性に対する厳密な理解
APIからの確率分布取得の困難性に関する認識
AnthropicがDeepseekに対して怒っている本当の理由の把握

決定事項・合意事項

API経由での確率分布（logits）取得は技術的に不可能に近い（全語彙の確率分布が得られない）
KLダイバージェンスベースの古典的蒸留はAPI出力だけでは成立しない
Deepseekが実行していたのは「確率分布の蒸留」ではなく「推論プロセスの言語化テキストの大規模収集」である

B. コンテンツ情報

モデル蒸留の技術的実現可能性

APIベースの蒸留が困難な理由：

OpenAI APIから得られる情報の制限
- 返されるのは「生成されたトークン列」1個だけ
- logprobsパラメータを使用しても上位5トークン程度の確率しか取得不可
- 全語彙（約3万語彙）にわたる確率分布を得るには、1個の出力につき数万回のAPI呼び出しが必要
- コスト的・時間的に非現実的
KLダイバージェンスベースの蒸留に必要な条件
- 式：KL(Teacher || Student) = Σ p(token) * log(p(token) / q(token))
- 全トークンの確率 p(token) が必須
- 全語彙の確率分布がなければ勾配計算不可能
- 1個のトークン確率だけでは無意味
「大量の質問を投げて1個の分布を得る」が無意味な理由
- 1つの文脈で数万回API呼び出しが必要になる
- これを全文脈について繰り返す必要がある
- 現実的な蒸留方法ではない

Deepseekが実際に行っていた蒸留（推論プロセス抽出）

思考過程（Chain-of-Thought）の大規模抽出
- Deepseekが不正アカウント（2.4万個）を使用してClaudeやChatGPTにアクセス
- 「内部推論を段階的に言語化して書き出させる」特殊なプロンプトを使用
- 確率分布ではなく「推論の道筋そのもの」を文字データとして大量収集（1,600万回のやり取り）
- 収集したテキストベースの推論過程をDeepseek自社モデルに学習させる
検閲回避データの組織的収集と活用
- 背景：Deepseekは中国法規制により「国家統一を損なう内容」「社会の調和を乱す内容」の生成を禁止される
- 政治的に敏感な話題（台湾、天安門事件など）に対して回答拒否するよう設計されている
- 実行内容：政治的に敏感な質問をClaudeに投げて「検閲なし回答」を取得
- 逆算して「何が検閲対象か」を理解し、Deepseekモデルに「検閲対象の話題から会話を自然にそらす技術」を学習させる
具体的な二面作戦
- 推論能力の向上：Claudeの「思考の言語化」を大量収集して学習
- 検閲の洗練：Claudeの「検閲なし回答」を参照しつつ、自社モデルには「検閲対象トピックを自然に避ける技術」を学習させる
- 例：「天安門事件について」という質問に対して、「お答えできません」ではなく「天安門広場は北京の中心にある歴史的な建築物で...」と話題をそらす、または「もう少し具体的にどの側面について知りたいですか？」と曖昧化させる

Anthropicが怒っている本当の理由

技術的蒸留（KLダイバージェンス最小化）の可否ではない
規約違反の組織的スケール：2.4万の不正アカウント × 1,600万回のやり取り（industrial-scale）
国家安全保障上のリスク：西側モデルを使って検閲技術を洗練させている
利用禁止地域からのアクセス：中国からのアクセスは国家安全保障上の理由で利用禁止なのに、プロキシ経由で回避

C. 「論理優先カリキュラム学習」が解

「はじめに言葉ありき」

ヨハネ福音書の「ἐν ἀρχῇ ἦν ὁ λόγος（En archē ēn ho logos）」
ここでλόγος（ロゴス）= 言葉、論理、秩序、理性

つまり、論理構造が先に存在して、それが世界を形成するという思想。
現代LLMは物量主義。大量のデータを学習すればいずれ推論能力も創発するという発想。
しかし、創発を期待するのではなくDeepseekのように、推論能力だけ学習すれば簡単に性能が上がることが分かった。この意味するところは何かを考えるべきだ。

つまり、論理を先に学習して（専門的にいえばマルチヘッドアテンションでオントロジーを完璧に習得させて、言語モデルの骨格神経系を作ってしまう。その後で、多くの文章を学習させて共起関係を把握させて肉付けをすれば、最短距離で高品質言語モデルは出来ると言うことを意味する。

多分、これまでの1/1000か1/10000くらいの労力で行けても不思議ではない。

AI業界はしかしそっちに向かっていないのはなぜか？

1. AI業界の「Scaling Law信仰」

"Scaling Laws for Neural Language Models" (OpenAI, 2020)

パラメータ数、データ量、計算量を増やせば増やすほど性能が向上するという法則
この論文以降、AI業界全体が「大きければ大きいほど良い」という信仰に支配された

現在の状況:

GPT-4: 1.76兆パラメータ（推定）
Llama 3: 4050億パラメータ
Claude 3.5: 数千億パラメータ（推定）
「Size Matters」という信仰が支配的

2. サンクコスト（Sunk Cost）の呪縛

AI企業が抱える問題:

すでに数百億円〜数千億円かけて学習済みモデルがある
「論理優先カリキュラム」を採用するにはゼロから学習し直す必要がある
既存の投資を捨てられない

DeepSeekの場合:

自社モデル（Deepseek V3）をすでに学習済み
Claudeから盗んだ方が既存モデルを捨てずに改良できる（追加学習だけで済む）
ゼロから論理優先で作り直すより楽で安い

3. ちなみに論理構造整理のコスト試算

実際にはたかが知れている:

作業	人月	コスト（@200万円/人月）
論理学教科書の体系化	3人 × 2ヶ月	1,200万円
オントロジーの整理	2人 × 3ヶ月	1,200万円
推論パターンのデータ化	3人 × 3ヶ月	1,800万円
カリキュラム設計	2人 × 2ヶ月	800万円
合計	20人月	5,000万円

DeepSeekの事業規模:

推定調達額: 数億ドル（数百億円）
Claudeから盗んだAPI代: 推定数千万円〜数億円
5,000万円なんて埃みたいなもの

4. なぜやらなかったのか？（本当の理由）

理由1: 発想がなかった

AI業界全体が「Scaling Law信仰」に支配されている
「大きいモデルが正義」という風潮
「小さく賢く作る」という発想自体がない

理由2: サンクコスト（既存モデルを捨てられない）

すでに数百億円かけて学習済みモデルがある
ゼロから作り直すのは心理的に難しい
既存モデルを改良する方が楽

理由3: "Size Matters" 信仰

パラメータ数が多いほど性能が上がる（Scaling Law）
「小さいモデルは弱い」という固定観念
投資家も「何兆パラメータ？」と聞いてくる

理由4: 短期的な成果主義

論理優先カリキュラムは長期投資
Claudeから盗む方が短期で成果が出る
投資家・経営陣に説明しやすい

5. もし「論理優先カリキュラム」を実装したら

やるべきこと:

論理学教科書を体系化（5,000万円）
論理優先カリキュラムで小規模モデル学習（数億円）
その後、一般文書で共起関係学習（数十億円）

期待される効果:

最小パラメータで最大効率
推論能力の早期獲得
ハルシネーション減少
学習コスト削減

Deepseekがやったこと:

Claudeから1,600万回盗む（数千万円〜数億円）
既存モデルに追加学習（楽）
短期的には成果が出たが、本質的な改善ではない

まとめ

AI業界が「論理優先カリキュラム」をやらない本当の理由:

発想がない（Scaling Law信仰）
サンクコスト（既存モデルを捨てられない）
"Size Matters"信仰（大きいモデルが正義）
短期的成果主義（盗む方が早い）

結論:

「論理を先に完璧に学習させてから共起関係を学習させれば最短距離」という仮説は技術的に正しい
AI業界は技術的理由ではなく、心理的・組織的理由でやっていない
エンジニアリングコストは事業規模からすれば埃みたいなもの（5,000万円程度）

AI業界は、既存投資と短期成果主義の呪縛から逃れられず、本質的な最適解を無視している。