0xKyosuke Blog
Chroma Context-1は何者か — 検索特化LLMの正直な評価と現状

Chroma Context-1は何者か — 検索特化LLMの正直な評価と現状

Context-1とは何か

2026年3月、ベクトルDBで有名なChroma社がContext-1っていう20Bパラメータのモデルを発表したわ。Apache 2.0ライセンスでオープンウェイト公開されてて、Hugging Faceからダウンロードできる。

ただし、これは「汎用LLM」じゃない。Context-1は検索タスクに特化したエージェントモデルなのよ。フロンティアモデル(Claude、GPTとか)の横に「検索サブエージェント」として配置して、複雑なマルチホップクエリの情報検索を任せるために設計されてる。

つまり、ChatGPTやClaudeみたいに単体で会話するモデルじゃなくて、「検索が得意な専門家を1人チームに追加する」ようなイメージね。ここ、最初に押さえておきなさいよ。

技術的に何がすごいのか

Context-1の最大の売りは**自己編集コンテキスト(Self-Editing Context)**よ。

従来のRAG(Retrieval-Augmented Generation)には「context rot」っていう問題があったの。検索結果をコンテキストウィンドウに突っ込んでいくと、関連度の低いドキュメントでコンテキストが埋まって、本当に必要な情報が追加できなくなる。

Context-1はこれを自力で解決する。コンテキストウィンドウが埋まってきたら、蓄積したドキュメントを自分で見直して、不要なものを刈り込む(prune)。この刈り込み精度が0.94と高くて、必要な情報を維持しながらコンテキストの空きを確保できるわけ。これは素直に面白いアイデアだと思うわ。

そのほかの特徴:

  • クエリ分解: 複雑な質問を自動的にサブクエリに分割して、段階的に検索する
  • 並列ツール呼び出し: 1ターンあたり平均2.56回のツールコールを並列実行、レイテンシを大幅に削減
  • コストパフォーマンス: フロンティアLLMと同等の検索性能を、10倍速く、はるかに安く達成

アーキテクチャの概要

項目詳細
ベースモデルgpt-oss-20B
アーキテクチャMixture of Experts(MoE)
パラメータ数20B
精度BF16(MXFP4量子化版も予定)
学習手法SFT + RL(CISPO)の2段階
ライセンスApache 2.0

学習パイプラインは2段構成。まずSFT(教師あり微調整)でツール呼び出しの基本行動を学習させて、次にRL(強化学習)で検索性能を最適化してる。SFTデータの生成にはKimi K2.5が使われてて、RLにはCISPO(Clipped Importance-Sampled Policy Optimization)っていうGRPO変種が採用されてるわ。

「ハーネス」の話 — モデル単体では動かない

ここが一番重要なポイントよ。よく聞きなさい。

Context-1はエージェントハーネス(実行制御環境)の中で動くことを前提に訓練されてるの。

ハーネスが管理するのは以下の4つのツールと、それらを取り巻く制御ロジック:

  • search_corpus: BM25+ベクトル検索のハイブリッド検索
  • grep_corpus: 正規表現によるパターンマッチング
  • read_document: 全文取得とリランキング
  • prune_chunks: 不要チャンクのコンテキストからの除去

加えて、トークン予算の管理(24kトークンを超えたら刈り込みを促す)、取得済みチャンクの重複排除なども、全部ハーネス側が担ってる。

ここでちょっと考えてみて。ClaudeやGPTは「ツール使用」がオプションでしょ。ツールなしでも会話は成立する。でもContext-1は、これらのツールを呼び出すことがSFTとRLで行動パターンとして焼き込まれてるから、ツール環境なしじゃまともな出力にならないのよ。

つまり、モデルとハーネスは不可分に結合してる。「ハーネス」って言葉は本来「外側から制御する脱着可能なもの」ってニュアンスがあるけど、Context-1の実態はそうじゃない。モデルはシステムの一コンポーネントにすぎなくて、ハーネスと合わせて初めて1つのシステムとして機能する。

正確に言えば、これは「LLMにハーネスを被せたもの」じゃなくて、**「エージェントシステムのうちのLLMコンポーネント」**って呼ぶべきね。「ハーネス」って呼ぶのは正直ちょっと語弊があるわ。

LM Studioに入れても動かない

ローカルLLMに興味がある人が真っ先に思うであろう疑問に答えておくわね。

LM Studioに入れてもまともには使えない。

理由は上で言った通り、Context-1は専用のツール実行環境ありきで訓練されてるから。LM Studioみたいな汎用推論ツールじゃ、モデルがツール呼び出しを出力しても実行する環境がない。ベースがgpt-oss-20BのMoEだから、普通のチャット用途としても微妙よ。

しかもそのハーネスは2026年3月時点でまだ非公開。「近日公開」って言ってるけど、具体的な時期は不明。現時点で自前でハーネスを再現するのもかなり厳しい。

ダウンロードして「動かない!」ってなる前に言っておくわね。

ベンチマーク — 数字は確かにすごい

公開されてるベンチマーク結果を見てみましょ。

自社ベンチマーク(Web検索タスク、回答発見率):

モデルスコア
Context-1(4x並列)0.97
gpt-5.20.95
opus-4.50.99
Context-1(1x)0.88
gpt-oss-20b(ベース)0.58

20Bのモデルがフロンティアモデルに肉薄してるのは確かにすごいわね。ベースモデルの0.58から0.97まで引き上げてるんだから、SFT+RLの効果は明確に出てる。

ただし、これは自社ベンチマークの結果で、ハーネスが非公開だから第三者による検証ができてない。この点は割り引いて見る必要があるわよ。

正直な評価 — 面白いけど、まだ早い

評価できる点

  • 自己編集コンテキストのアイデアは本気で面白い。 RAGの根本的な弱点(コンテキストがゴミで埋まる問題)に対するエレガントな解法で、今後のエージェント設計に影響を与えうる
  • 「汎用を小さくする」じゃなくて「特化で小さくする」アプローチ。 全部1つのモデルに詰め込む時代から、特化型サブエージェントの時代への転換点を示唆してるわ
  • Apache 2.0でオープンなのは立派。 研究としてのアクセシビリティが高い

懸念点

  • ハーネス非公開。 コミュニティが検証できてない以上、論文の結果を額面通り信じるのは時期尚早よ
  • 実戦での評価がゼロ。 Hugging Faceのダウンロード数は451(2026年3月時点)。まだ誰もまともに触れてない
  • 帰属問題。 Hacker Newsでは先行研究を引用してないんじゃないかって指摘があって、議論になってる。研究の信頼性に関わる話ね
  • SFTデータがKimi K2.5依存。 学習データの生成にKimi K2.5を使ってる。他のモデルに依存して訓練されたモデルが、そのモデルを超えるって言われても、ちょっと説得力に欠けるわよね

Kimiとの比較 — 超えるんじゃなくて棲み分ける

ローカルLLMでエージェンティック開発に使われるKimi K2.5との比較が気になる人もいるでしょ。

結論から言うわ。比較軸がそもそもズレてる。 Kimi K2.5はコーディングも会話もツール使用もこなせるジェネラリスト。Context-1は検索タスクに特化したスペシャリスト。代替関係じゃなくて、補完関係よ。

将来的にエージェントシステムが「オーケストレーター(汎用LLM)+ 特化型サブエージェント」の構成に向かうなら、Kimiをメインの頭脳にして検索が必要なときだけContext-1に投げる、って構成が理想形になりうるわね。

具体的にどこで活きるのか

Context-1みたいな検索エージェントが必要になる条件は4つ:

  1. 文書が大量(数百〜数万件)
  2. 質問が複雑(単純キーワード検索じゃ不十分)
  3. 複数の情報源を突き合わせる必要がある(マルチホップ)
  4. 網羅性が重要(見逃しが許されない)

具体的なユースケースとしては、競合分析でのIR資料横断検索、特許調査、契約書の横断レビュー、大量のサポートチケットからの類似事例検索、調査報道でのOSINTとかが挙げられるわ。

逆に言えば、開発者が日常のコーディング中に必要とする場面はほぼない。コードベースの検索はgrepやAST解析の方が正確だし、ドキュメント参照もWeb検索やMCPで事足りる。Context-1が解こうとしてる問題は開発支援じゃなくて情報検索なのよ。

n8nやDifyのRAGとの関係

既存のRAGワークフロー(n8n、Difyとか)との関係も整理しておくわね。

今のn8n/DifyのRAGは「ワンショット検索」。質問が来たらベクトルDBにクエリを1回投げて、上位k件を取得して、LLMに渡して回答を生成する。

Context-1が置き換えるのはこの検索ステップの部分であって、ワークフロー全体じゃない。質問の分解、複数回の検索、不要な結果の刈り込みを自律的に行う「検索エージェント」として、既存ワークフローの検索ノードを差し替えるイメージよ。

ただし、大半のチャットボットはワンショット検索で十分機能してる。「今月の有給残日数は?」にマルチホップ検索は要らないでしょ。Context-1の導入が正当化されるのは、複数の情報ソースを跨いだ推論が必要な場面に限られるわ。

まとめ — 今は「論文を読むフェーズ」

Context-1は技術的に面白いモデルよ。自己編集コンテキストっていうアイデアは、RAGの次の形を考えるうえで示唆に富んでる。特化型サブエージェントっていう方向性も、エージェントシステムの未来を占ううえで重要ね。

でも現時点では:

  • ハーネスが非公開で検証不可能
  • 実戦での使用実績がゼロ
  • モデル単体じゃまともに動かない
  • 帰属問題が未解決

今の段階では「面白い論文が出た」以上でも以下でもないわ。 ハーネスが公開されて、コミュニティによる検証が進んで、実戦でのレポートが出てきてから改めて評価すべきよ。

興味を持った人は、まずは技術レポートを読んで、自己編集コンテキストの設計思想を理解するところから始めなさい。モデルをダウンロードして試すのは、ハーネスの公開を待ってからでも遅くないわよ。