概要
2026年3月、Andrej Karpathyが「autoresearch」を公開しました。LLMのローカル実行環境としてDistributed Llama 複数PC LLM:複数デバイスを繋いで分散推論する方法を組み合わせると、クラウドAPIコストなしで自律改善ループを回すことができます。コアはわずか約630行。人間がprogram.mdに研究方針を書くと、AIエージェントがtrain.pyを自律的に編集し、5分間学習→val_bpb計測→採否判定→次の実験というループを延々と繰り返します。
Karpathy自身がH100で2日間走らせたところ、約700件のコード編集が発生し、そのうち約20件の変更が生き残りました。起動前の val_bpb 0.9979 が、89実験で 0.9773、さらに126実験で 0.9697 まで改善されたことがREADMEのログで公開されています。「朝起きたら、より良いモデルになっていた」という体験を最小構成で実現した点が、リリース直後から注目を集めた理由です。
主な機能
- エージェントによる自律コード編集: 外部LLM(Claude / Codex など)が
train.pyを直接編集し、アーキテクチャ・ハイパーパラメータ・オプティマイザーまで自由に変更します - 5分固定タイムバジェット: ウォールクロックで5分きっかり学習を実行し、結果を比較可能な状態に保ちます。1時間で約12実験、一晩で約100実験が可能です
- val_bpb メトリクス: 語彙サイズに依存しない「1バイトあたりの検証ビット数」を指標とするため、異なるアーキテクチャ間でも公正に比較できます
- program.md による研究方針制御: 研究者はMarkdownで方針を書くだけ。エージェントへの指示書としても機能し、方針を育てることが研究者の主な仕事になります
- 3ファイル構成のミニマル設計:
prepare.py(データ前処理)・train.py(エージェントが編集)・program.md(人間が編集)だけで完結します - 実験ログの自動記録: すべての変更・指標・採否をログとして残し、PRで公開するワークフローを推奨しています
- フォーク対応: MacOS・AMD・Windowsなど異なるプラットフォーム向けのコミュニティフォークが複数存在します
技術スタック
- 言語: Python 3.10+
- GPUランタイム: NVIDIA GPU(開発・テストはH100で実施)
- LLMフレームワーク: nanochat(karpathy製シングルGPU GPT実装)
- オプティマイザー: Muon + AdamW(
train.py内に実装済み) - パッケージ管理: uv(astral.sh製の高速Pythonパッケージマネージャー)
- エージェント: Claude / Codex など任意のLLMを外部から接続
導入方法
# 1. uv をインストール(未導入の場合)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 依存ライブラリをインストール
uv sync
# 3. データ準備とトークナイザー学習(初回のみ、約2分)
uv run prepare.py
# 4. 動作確認として1回だけ手動学習(約5分)
uv run train.py
動作確認後、ClaudeやCodexのエージェントをリポジトリに向けて起動します。許可設定をオフにし、次のように一言プロンプトを送るだけです。
program.md を読んで、新しい実験を始めましょう。まずセットアップから。
あとはエージェントが自律的にループを回します。翌朝、val_bpb のログとともに改善されたモデルが待っています。
競合比較
| 項目 | autoresearch | W&B Sweeps | Ray Tune | Optuna |
|---|---|---|---|---|
| エージェントによるコード自律編集 | あり | なし | なし | なし |
| 自然言語で研究方針を指定 | あり(program.md) | なし | なし | なし |
| 固定タイムバジェットによる公正比較 | あり | なし | なし | なし |
| セットアップの手軽さ | 3ファイルのみ | 設定ファイル要 | 設定ファイル要 | 設定ファイル要 |
| シングルGPU最適化 | 特化 | 汎用 | 汎用 | 汎用 |
| 実験の採否自動判定 | あり | なし | なし | なし |
W&B SweepsやRay Tuneは「人間が設計した探索空間を効率的に走る」ツールです。autoresearchは「探索空間の設計そのものをエージェントに委ねる」点で根本的に異なります。RAGを使った検索拡張生成の実装方法についてはRAGFlow エンタープライズRAG:大規模なRAG構築方法を解説が参考になります。
こんな人におすすめ
-
ML研究者: 仮説検証の手作業を減らし、
program.mdを育てることに集中したい人。エージェントループの設計自体が新しい研究テーマになります -
個人開発者・趣味エンジニア: シングルGPUでLLMの自律改善を体験したい人。3ファイル構成なのでコードを読み解くハードルが低く、学習材料としても優れています
-
スタートアップのAIチーム: 少人数で週次の実験サイクルを回したい人。就寝中や週末に実験を走らせ、翌朝レビューするワークフローがそのまま使えます
-
nanochat / GPT系の実装を学びたい人:
train.pyはGPTモデル・Muonオプティマイザー・学習ループがワンファイルにまとまっており、コード読解の教材としても価値があります -
AIエージェントの実応用を探している人: エージェントが実際にコードを書き換えて指標を改善するシステムの最小実装例として、agent設計のリファレンスになります