autoresearchとは何ですか？

Andrej Karpathyが公開した約630行のPythonツールで、AIエージェントがtrain.pyを自律編集し5分の学習サイクルを繰り返してLLMを改善します。

autoresearchの構成ファイル数は？

prepare.py・train.py・program.mdの3ファイルのみで完結するミニマル設計です。

autoresearchの実績は？

Karpathy自身がH100で2日間走らせ、約700件のコード編集からval_bpbを0.9979から0.9697まで改善した実績があります。

autoresearchとW&B Sweepsの違いは？

W&B Sweepsは人間が設計した探索空間を効率的に走るツールですが、autoresearchは探索空間の設計そのものをエージェントに委ねる点で根本的に異なります。

autoresearch：KarpathyのAIエージェントが一晩でLLMを自律改善する最小構成フレームワーク入門

概要

2026年3月、Andrej Karpathyが「autoresearch」を公開しました。LLMのローカル実行環境としてDistributed Llama 複数PC LLM：複数デバイスを繋いで分散推論する方法を組み合わせると、クラウドAPIコストなしで自律改善ループを回すことができます。コアはわずか約630行。人間がprogram.mdに研究方針を書くと、AIエージェントがtrain.pyを自律的に編集し、5分間学習→val_bpb計測→採否判定→次の実験というループを延々と繰り返します。

Karpathy自身がH100で2日間走らせたところ、約700件のコード編集が発生し、そのうち約20件の変更が生き残りました。起動前の val_bpb 0.9979 が、89実験で 0.9773、さらに126実験で 0.9697 まで改善されたことがREADMEのログで公開されています。「朝起きたら、より良いモデルになっていた」という体験を最小構成で実現した点が、リリース直後から注目を集めた理由です。

主な機能

エージェントによる自律コード編集: 外部LLM（Claude / Codex など）がtrain.pyを直接編集し、アーキテクチャ・ハイパーパラメータ・オプティマイザーまで自由に変更します
5分固定タイムバジェット: ウォールクロックで5分きっかり学習を実行し、結果を比較可能な状態に保ちます。1時間で約12実験、一晩で約100実験が可能です
val_bpb メトリクス: 語彙サイズに依存しない「1バイトあたりの検証ビット数」を指標とするため、異なるアーキテクチャ間でも公正に比較できます
program.md による研究方針制御: 研究者はMarkdownで方針を書くだけ。エージェントへの指示書としても機能し、方針を育てることが研究者の主な仕事になります
3ファイル構成のミニマル設計: prepare.py（データ前処理）・train.py（エージェントが編集）・program.md（人間が編集）だけで完結します
実験ログの自動記録: すべての変更・指標・採否をログとして残し、PRで公開するワークフローを推奨しています
フォーク対応: MacOS・AMD・Windowsなど異なるプラットフォーム向けのコミュニティフォークが複数存在します

技術スタック

言語: Python 3.10+
GPUランタイム: NVIDIA GPU（開発・テストはH100で実施）
LLMフレームワーク: nanochat（karpathy製シングルGPU GPT実装）
オプティマイザー: Muon + AdamW（train.py内に実装済み）
パッケージ管理: uv（astral.sh製の高速Pythonパッケージマネージャー）
エージェント: Claude / Codex など任意のLLMを外部から接続

導入方法

# 1. uv をインストール（未導入の場合）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 依存ライブラリをインストール
uv sync

# 3. データ準備とトークナイザー学習（初回のみ、約2分）
uv run prepare.py

# 4. 動作確認として1回だけ手動学習（約5分）
uv run train.py

動作確認後、ClaudeやCodexのエージェントをリポジトリに向けて起動します。許可設定をオフにし、次のように一言プロンプトを送るだけです。

program.md を読んで、新しい実験を始めましょう。まずセットアップから。

あとはエージェントが自律的にループを回します。翌朝、val_bpb のログとともに改善されたモデルが待っています。

競合比較

項目	autoresearch	W&B Sweeps	Ray Tune	Optuna
エージェントによるコード自律編集	あり	なし	なし	なし
自然言語で研究方針を指定	あり（program.md）	なし	なし	なし
固定タイムバジェットによる公正比較	あり	なし	なし	なし
セットアップの手軽さ	3ファイルのみ	設定ファイル要	設定ファイル要	設定ファイル要
シングルGPU最適化	特化	汎用	汎用	汎用
実験の採否自動判定	あり	なし	なし	なし

W&B SweepsやRay Tuneは「人間が設計した探索空間を効率的に走る」ツールです。autoresearchは「探索空間の設計そのものをエージェントに委ねる」点で根本的に異なります。RAGを使った検索拡張生成の実装方法についてはRAGFlow エンタープライズRAG：大規模なRAG構築方法を解説が参考になります。

こんな人におすすめ

ML研究者: 仮説検証の手作業を減らし、program.mdを育てることに集中したい人。エージェントループの設計自体が新しい研究テーマになります
個人開発者・趣味エンジニア: シングルGPUでLLMの自律改善を体験したい人。3ファイル構成なのでコードを読み解くハードルが低く、学習材料としても優れています
スタートアップのAIチーム: 少人数で週次の実験サイクルを回したい人。就寝中や週末に実験を走らせ、翌朝レビューするワークフローがそのまま使えます
nanochat / GPT系の実装を学びたい人: train.pyはGPTモデル・Muonオプティマイザー・学習ループがワンファイルにまとまっており、コード読解の教材としても価値があります
AIエージェントの実応用を探している人: エージェントが実際にコードを書き換えて指標を改善するシステムの最小実装例として、agent設計のリファレンスになります

参考リンク

GitHub: karpathy/autoresearch