0xKyosuke Blog
「オープンウェイト=安全」の幻想 — AIモデルの隠れたバイアスを暴くDFCとは

「オープンウェイト=安全」の幻想 — AIモデルの隠れたバイアスを暴くDFCとは

オープンウェイトなら中身が見える?

DeepSeek、Qwen、LlamaといったオープンウェイトのAIモデルが世界中で使われてるわよね。重みが公開されてるから透明性がある、ローカルで動かせばデータ流出の心配もない——そう信じてる人、多いんじゃない?

でも2026年3月、Anthropicが発表した研究「A “diff” tool for AI」が、その認識に大きな疑問を投げかけたの。オープンウェイトモデルの「重み」の中に、開発者すら意図しなかったかもしれない隠れたバイアスが埋め込まれてることを、科学的に実証したのよ。

DFC(Dedicated Feature Crosscoder)とは何か

ソフトウェア開発では、コードの変更点を比較する「diff」ツールが当たり前に使われてるわよね。Anthropicの研究チームは、この概念をニューラルネットワークに応用した**DFC(Dedicated Feature Crosscoder)**を開発したの。

DFCの構造は3つのパートからなるわ。

  1. 共有辞書 — 比較対象の2つのモデルが共通して持つ概念を対応付ける
  2. モデル固有セクション — 片方のモデルにしかない特徴を特定する
  3. ステアリング検証 — 見つけた特徴を人工的に増幅し、実際にモデルの振る舞いが変わるか因果関係を確認する

つまり、何十億個もの数値の塊であるモデルの重みの中から、「この数値の組み合わせが、この振る舞いを制御してる」っていうパターンを抽出できるツールなのよ。

発見されたもの——中国共産党、アメリカ例外主義、著作権

DFCによる解析で、以下の特徴がモデル内部から検出されたわ。

  • Qwen3-8B、DeepSeek-R1 → CCP(中国共産党)の立場に沿った検閲・プロパガンダを制御する機能
  • Llama-3.1-8B → アメリカ例外主義(米国の優越性を主張する方向)を制御する機能
  • GPT-OSS-20B → 著作権保護コンテンツの要求を拒否する機能

重要なのは、これらがAPIサーバー側のフィルタリングじゃなくて、公開されてるオープンウェイトの重み自体に焼き付いてるって点よ。

CCP整合機能は5回中5回、アメリカ例外主義は5回中4回の再発見率が確認されてて、再現性のある発見なの。

「オープンウェイト」と「オープンソース」の決定的な違い

ソフトウェアのオープンソースとAIのオープンウェイトには、透明性の面で決定的な差があるわ。

ソフトウェアのソースコードは人間が読める。「この関数でユーザーデータを送信してる」「ここで入力をフィルタリングしてる」って振る舞いが、コードを読めば判別できる。だからこそオープンソースは透明性の担保として機能するのよ。

一方、ニューラルネットワークの重みは人間が読めない。「0.00342, -0.1587, 0.0891…」って数値が何十億個並んでるだけ。このどこが翻訳を担当して、どこが数学を処理して、どこが政治的バイアスを制御してるのか、数値を見ただけじゃ絶対に判別できないのよ。

つまり、オープンウェイトは見かけほど透明じゃない。重みが手元にあることと、中身を理解できることは全く別の話なわけ。

「ローカルで動かせば安全」の盲点

中国製AIモデルをローカルで動かすユーザーの多くは、データ流出リスクを避ける目的でそうしてるわよね。API経由だと入力データが中国のサーバーに送信される可能性があるから、ローカル実行で手元に留めようって発想。これ自体は正しいわ。

でもね、ここには見落とされがちなもう一つの脅威があるの。

データ流出リスク出力バイアスリスク
API経由で利用ありあり
ローカルで実行解決未解決

バイアスは重みに焼き付いてる。どのサーバーで動かそうが、同じ重みを使う限り同じ振る舞いをするのよ。ローカル実行で防げるのはデータの流出だけであって、出力が偏ってるリスクはそのまま残るの。

しかもDFCが検出したバイアスは、天安門事件について質問したら露骨に回避するような「誰でも気づくレベル」のものじゃないわ。特定のトピックで微妙にトーンが寄る、論点のフレーミングがわずかに偏る——普通に使ってたら気づかないレベルの偏りなのよ。

表面的なテストじゃ検出できないからこそ、DFCのようなモデル内部の直接解析が必要になるわけ。

なぜバイアスが入り込むのか

中国には「生成式AI管理弁法」(2023年施行)があって、中国国内でサービスを提供するAIは社会主義の核心的価値観に適合し、国家の統一や社会の安定を損なう内容を生成しないことが法律で義務付けられてるの。

Alibaba(Qwen)もDeepSeekも、中国で事業を続ける以上、この規制に準拠した訓練データとアラインメント調整を行わざるを得ない。その結果がモデルの重みに焼き付いて、オープンウェイトとして世界中に配布されるってわけ。

これが意図的な情報操作なのか、国内規制への準拠が結果的に漏れ出したものなのかは外部からは判断できないわ。ただし、どっちであっても使う側が受け取る偏った出力は同じよ。

そしてこれは中国だけの問題じゃない。MetaのLlamaにもアメリカ例外主義のバイアスが検出されてる。すべてのモデルは、作った国と企業の価値観から完全には逃れられないのよ。

「国産AI」を名乗るモデルの二重リスク——楽天AI 3.0のケース

2026年3月、楽天が「Rakuten AI 3.0」を公開したわ。約7,000億パラメータの日本語特化モデルとして注目を集めたんだけど、Hugging Faceの公開ページにDeepSeekの表記が残ってたことから、ベースモデルがDeepSeek-V3である可能性が指摘されてるの。楽天に確認したITmediaに対し、楽天は「ベースモデルは非開示」と回答を避けたわ。

もしDeepSeekベースであるなら、以下の二重リスクが存在しうるのよ。

第1層:ベースモデルから引き継ぐバイアス DeepSeekの重みに焼き付いたCCP整合バイアスが、ファインチューニング後も深い層に残存する可能性がある。

第2層:自社ファインチューニングで追加できるバイアス 楽天が自社データでファインチューニングする際に、自社サービスに有利な方向にモデルを調整することも技術的には可能よ。

これは楽天を名指しで批判する話じゃないわ。オープンウェイトモデルをベースに自社サービスを構築する企業すべてに当てはまるリスクなの。ベースモデルのバイアスを引き継ぎつつ、さらに自社に都合のいい調整を上乗せできる。そしてDFCのようなツールで解析されない限り、外からは検証できないのよ。

DFCの現在地——ゼロから1へ

DFCは万能じゃないわ。現時点ではまだ研究段階で、以下の課題があるの。

  • 解析には相当な計算リソースとML専門知識が必要
  • 検証されたのは8B〜20B規模のモデルで、より巨大なモデルへのスケーラビリティは未知数
  • 発見された特徴が「問題のあるバイアス」なのか「妥当な安全対策」なのかの判断にも専門知識がいる
  • 誰がコストをかけて全モデルを検査・公開するのかっていう体制の問題も未解決

それでも、DFCの意義は大きいわよ。

昨日まで「オープンウェイトだから中身が見えてる」って言いながら、実際には誰もモデルの内部を読み解く手段を持ってなかった。DFCはモデルの中身を透視する最初のX線装置なのよ。

ゼロが1になった。1が100になるのはこれからだけど、「見る方法が存在する」って事実自体が、露骨なバイアスの仕込みに対する抑止力になるわ。

将来的にはモデルのリリース時にDFC的な監査レポートが標準で付属する世界が来るかもしれない。少なくとも、その第一歩は踏み出されたのよ。

まとめ

  • オープンウェイト ≠ 透明。重みが公開されてても、何十億の数値の中に何が埋まってるかは人間には読めない
  • ローカル実行 ≠ 安全。データ流出は防げても、出力バイアスは重みに焼き付いてる
  • DFCはモデルの内部を可視化する初の実用的手法。中国製モデルのCCPバイアスだけじゃなく、米国製モデルのバイアスも検出した
  • すべてのモデルは、作った国と企業の価値観を内包する。信頼するなら、中身を検証してから

AIモデルを選ぶとき、ベンチマークの数字だけじゃなく「このモデルの中には何が埋まってるのか」を問う時代が始まろうとしてるわ。

記事一覧へ