OpenAIが開催中の技術コンペ「Parameter Golf」で、AIオーケストレーションの兆し

OpenAIが「Parameter Golf」という技術コンペを開催している。2026年3月18日〜4月30日の期間限定だ。

ルールはシンプル。16MBに収まる言語モデルを、8台のH100 GPUで10分以内に訓練して、最高のbits per byte(BPB)スコアを出せ。 参加者には100万ドル分の計算クレジットが提供されている。

そしてこのコンペ、単なるスコア競争ではない。OpenAIは公式にこう述べている。

「6月に、学部生および新卒を対象とした少人数の若手研究者コホートを採用する予定です。優秀な参加者にとって、このチャレンジはOpenAIの研究者やリクルーターの目に留まる機会にもなり得ます」

参加フォームはOpenAIの採用プラットフォーム(Ashby)上にある。技術コンペと採用選考を兼ねた、OpenAIらしい取り組みだ。

僕は、このコンペをウォッチしていたときに、技術的な競争の中にいくつか面白い動きが見えたので、考察としてまとめてみた。

※本記事は2026年3月23日時点の情報に基づく。コンペ開催中のため、今後状況が変わる可能性がある。


リーダーボードはML技術の戦場

まず現状の整理。公式リーダーボードを支配しているのは、純粋な機械学習技術の積み重ねだ。

参加者たちが競い合っている手法を大まかに分類すると:

  • 量子化の工夫 — Int5/Int6混合精度で、16MBの制約内にできるだけ多くのパラメータを詰め込む
  • アーキテクチャ改良 — SmearGate、BigramHash、U-Net skipなど、小さいモデルの表現力を最大化する工夫
  • 訓練の最適化 — Muonオプティマイザのweight decay調整、学習率チューニング
  • 評価手法の工夫 — Sliding Windowで各トークンに最大コンテキストを与えて評価精度を上げる
  • テスト時訓練(TTT) — 評価時にLoRAアダプターでモデルを適応させる

最新のオープンPRではXSA(Attentionの出力から自己Value成分を差し引く手法)も注目されている。限られたパラメータをトークン間の関係性に集中させる、パラメータ制約下で効く技術だ。

ベースラインの1.2244から、現在の世界記録1.1428まで。参加者同士がGitHub PRで成果を公開し、互いのコードを読み、積み上げていく——オープンソース的な研究の進め方が印象的だ。


そこに、AIエージェントが参戦した

ここからが、僕が注目している話だ。

あるオープンPR(#517)で、0.978という圧倒的なスコアが提出された。公式記録の1.1428を大幅に上回る数字だ。

僕もKaggle等の機械学習コンペに参加した経験があるが、PyTorchで手軽にスコアを出したり、XGBoostで地道に改善するケースは多く見てきた。しかし、ルール度外視とはいえ、ここまで突出したスコアを一気に叩き出すケースは記憶にない。それだけに目を引いた。

著者のlukacfによれば、このスコアは自作のAIエージェントフレームワーク「Goldfish ML」が自律的に発見したものだという。著者の説明では、人間がやったのはフレームワークの構築とベースとなるコードの選択。あとはAIが2時間で7つの実験を自律的に回して、最適な改善策にたどり着いたとのこと。

技術的には、先人たちが積み上げてきたコード(PR #398 felipe-parodi、PR #442 sjp611の成果)に、学習率のCosine減衰スケジューリングを加えてTTTのエポック数を大幅に拡大したことが鍵だった。

ただし、この提出は未採択のままだ。

理由として考えられるのは、評価に24分を費やしている点。コンペのルールでは評価も10分以内とされており、時間制限を超過している可能性が高い。AIエージェントが「スコア最大化」という目標は達成したが、「制限時間を守れ」という制約を知らなかった——著者がAIにルールを伝え忘れたのだとすれば、皮肉な結果だ。

※これはあくまでPRの内容から私が推測した分析であり、OpenAIが不採択の理由を公式に説明したわけではない。


OpenAIはAIツールの使用を想定している

この話がさらに面白くなるのは、OpenAIの公式アナウンスだ。

「AIコーディングツールを使用する方は、CLAUDE.mdまたはAGENTS.mdに競技要件を記載し、すべての提出物にそれらを含めることをお勧めします」

CLAUDE.mdはAnthropicのClaude Codeが読む「プロジェクトのルールブック」、AGENTS.mdは他のAIエージェント向けの同等ファイルだ。

つまりOpenAIは、参加者がAIエージェントを使ってコードを書くことを想定している。禁止するのではなく、「使うなら、AIにルールをちゃんと伝えなさい」というスタンスだ。

先ほどのPR #517の事例と合わせて考えると、「AIエージェントを使うこと自体は問題ない。ただし、制約を守った上で結果を出せるかどうかが問われる」というメッセージに読める。


筆者の所感:「AIをどう動かすか」という問い

ここからは我々の考察だ。

現時点でParameter Golfの主戦場は圧倒的にML技術の勝負であり、AIオーケストレーションはまだ「兆し」に過ぎない。AIエージェントによる提出はたった1件、しかも未採択だ。

だが、いくつかの事実が重なっている:

  • AIエージェントが、専門家の競技会で最高スコア(ただし無効)を出した
  • OpenAIがAIツールの使用を公式に想定したガイドラインを出した
  • コンペ自体がOpenAIの採用パイプラインとしても機能している

これらを踏まえると、「AIに何をさせるか設計する力」が、純粋な技術力と同じくらい重要になっていく可能性を感じる。

もちろん、これはコンペ開催中の一断面に過ぎない。4月30日の終了後、AIエージェントの使用がどう評価されるかは未知数だ。今後ルールが変わる可能性もある。

ただ、この流れを見ていて感じるのは、「コードを書く力」の上位に「AIをどう動かすか」という新しいレイヤーが生まれつつあるということだ。

それがどこまで進むかはまだわからない。だからこそ、面白い。


腕に覚えのある方へ

Parameter Golfは4月30日まで開催中だ。

16MBという制約の中で、量子化、アーキテクチャ、訓練手法、評価手法——あらゆる工夫が試されている。他の参加者のPRを読むだけでも、最先端のモデル圧縮技術を学べる。

腕に覚えのある方は、ぜひチャレンジしてみてはいかがだろうか。

この記事を書いた人