OpenAIが「Parameter Golf」という技術コンペを開催している。2026年3月18日〜4月30日の期間限定だ。
ルールはシンプル。16MBに収まる言語モデルを、8台のH100 GPUで10分以内に訓練して、最高のbits per byte(BPB)スコアを出せ。 参加者には100万ドル分の計算クレジットが提供されている。
そしてこのコンペ、単なるスコア競争ではない。OpenAIは公式にこう述べている。
「6月に、学部生および新卒を対象とした少人数の若手研究者コホートを採用する予定です。優秀な参加者にとって、このチャレンジはOpenAIの研究者やリクルーターの目に留まる機会にもなり得ます」
参加フォームはOpenAIの採用プラットフォーム(Ashby)上にある。技術コンペと採用選考を兼ねた、OpenAIらしい取り組みだ。
僕は、このコンペをウォッチしていたときに、技術的な競争の中にいくつか面白い動きが見えたので、考察としてまとめてみた。
※本記事は2026年3月23日時点の情報に基づく。コンペ開催中のため、今後状況が変わる可能性がある。
リーダーボードはML技術の戦場
まず現状の整理。公式リーダーボードを支配しているのは、純粋な機械学習技術の積み重ねだ。
参加者たちが競い合っている手法を大まかに分類すると:
- 量子化の工夫 — Int5/Int6混合精度で、16MBの制約内にできるだけ多くのパラメータを詰め込む
- アーキテクチャ改良 — SmearGate、BigramHash、U-Net skipなど、小さいモデルの表現力を最大化する工夫
- 訓練の最適化 — Muonオプティマイザのweight decay調整、学習率チューニング
- 評価手法の工夫 — Sliding Windowで各トークンに最大コンテキストを与えて評価精度を上げる
- テスト時訓練(TTT) — 評価時にLoRAアダプターでモデルを適応させる
最新のオープンPRではXSA(Attentionの出力から自己Value成分を差し引く手法)も注目されている。限られたパラメータをトークン間の関係性に集中させる、パラメータ制約下で効く技術だ。
ベースラインの1.2244から、現在の世界記録1.1428まで。参加者同士がGitHub PRで成果を公開し、互いのコードを読み、積み上げていく——オープンソース的な研究の進め方が印象的だ。
そこに、AIエージェントが参戦した
ここからが、僕が注目している話だ。
あるオープンPR(#517)で、0.978という圧倒的なスコアが提出された。公式記録の1.1428を大幅に上回る数字だ。
僕もKaggle等の機械学習コンペに参加した経験があるが、PyTorchで手軽にスコアを出したり、XGBoostで地道に改善するケースは多く見てきた。しかし、ルール度外視とはいえ、ここまで突出したスコアを一気に叩き出すケースは記憶にない。それだけに目を引いた。
著者のlukacfによれば、このスコアは自作のAIエージェントフレームワーク「Goldfish ML」が自律的に発見したものだという。著者の説明では、人間がやったのはフレームワークの構築とベースとなるコードの選択。あとはAIが2時間で7つの実験を自律的に回して、最適な改善策にたどり着いたとのこと。
技術的には、先人たちが積み上げてきたコード(PR #398 felipe-parodi、PR #442 sjp611の成果)に、学習率のCosine減衰スケジューリングを加えてTTTのエポック数を大幅に拡大したことが鍵だった。
ただし、この提出は未採択のままだ。
理由として考えられるのは、評価に24分を費やしている点。コンペのルールでは評価も10分以内とされており、時間制限を超過している可能性が高い。AIエージェントが「スコア最大化」という目標は達成したが、「制限時間を守れ」という制約を知らなかった——著者がAIにルールを伝え忘れたのだとすれば、皮肉な結果だ。
※これはあくまでPRの内容から私が推測した分析であり、OpenAIが不採択の理由を公式に説明したわけではない。
OpenAIはAIツールの使用を想定している
この話がさらに面白くなるのは、OpenAIの公式アナウンスだ。
「AIコーディングツールを使用する方は、CLAUDE.mdまたはAGENTS.mdに競技要件を記載し、すべての提出物にそれらを含めることをお勧めします」
CLAUDE.mdはAnthropicのClaude Codeが読む「プロジェクトのルールブック」、AGENTS.mdは他のAIエージェント向けの同等ファイルだ。
つまりOpenAIは、参加者がAIエージェントを使ってコードを書くことを想定している。禁止するのではなく、「使うなら、AIにルールをちゃんと伝えなさい」というスタンスだ。
先ほどのPR #517の事例と合わせて考えると、「AIエージェントを使うこと自体は問題ない。ただし、制約を守った上で結果を出せるかどうかが問われる」というメッセージに読める。
筆者の所感:「AIをどう動かすか」という問い
ここからは我々の考察だ。
現時点でParameter Golfの主戦場は圧倒的にML技術の勝負であり、AIオーケストレーションはまだ「兆し」に過ぎない。AIエージェントによる提出はたった1件、しかも未採択だ。
だが、いくつかの事実が重なっている:
- AIエージェントが、専門家の競技会で最高スコア(ただし無効)を出した
- OpenAIがAIツールの使用を公式に想定したガイドラインを出した
- コンペ自体がOpenAIの採用パイプラインとしても機能している
これらを踏まえると、「AIに何をさせるか設計する力」が、純粋な技術力と同じくらい重要になっていく可能性を感じる。
もちろん、これはコンペ開催中の一断面に過ぎない。4月30日の終了後、AIエージェントの使用がどう評価されるかは未知数だ。今後ルールが変わる可能性もある。
ただ、この流れを見ていて感じるのは、「コードを書く力」の上位に「AIをどう動かすか」という新しいレイヤーが生まれつつあるということだ。
それがどこまで進むかはまだわからない。だからこそ、面白い。
腕に覚えのある方へ
Parameter Golfは4月30日まで開催中だ。
- リポジトリ: https://github.com/openai/parameter-golf
- 計算クレジット申請: OpenAI公式サイトから申請可能
- コミュニティ: OpenAI公式Discordの #parameter-golf-discussions
16MBという制約の中で、量子化、アーキテクチャ、訓練手法、評価手法——あらゆる工夫が試されている。他の参加者のPRを読むだけでも、最先端のモデル圧縮技術を学べる。
腕に覚えのある方は、ぜひチャレンジしてみてはいかがだろうか。



