📰 今日のまとめ NEW
🏠 ホーム ニュース 🏷️ タグ一覧 ℹ️ About
🔍 記事を検索
カテゴリ
📡 RSSフィード
Follow
X (Twitter) Threads
📰 Today's Digest
NEW 今日のまとめ
Quick Links
ニュース一覧 🏷️ タグから探す
🤖 Agent 🟠 Claude 🔌 MCP 🔧 Dev Tools
Subscribe
📡 RSSフィード
ホーム agent 2026.03.24

autoresearch:KarpathyのAIエージェントが一晩でLLMを自律改善する最小構成フレームワーク入門

karpathy/autoresearch
55136 Python 🔬
autoresearch:KarpathyのAIエージェントが一晩でLLMを自律改善する最小構成フレームワーク入門 - AIツール日本語解説 | AI Heartland
// なぜ使えるか
研究者はprogram.mdに方針を書くだけ。AIエージェントがtrain.pyを編集→5分学習→val_bpb計測→採否判定のループを自律で回し、眠っている間にモデルが改善されています。

概要

2026年3月、Andrej Karpathyが「autoresearch」を公開しました。LLMのローカル実行環境としてDistributed Llama 複数PC LLM:複数デバイスを繋いで分散推論する方法を組み合わせると、クラウドAPIコストなしで自律改善ループを回すことができます。コアはわずか約630行。人間がprogram.mdに研究方針を書くと、AIエージェントがtrain.pyを自律的に編集し、5分間学習→val_bpb計測→採否判定→次の実験というループを延々と繰り返します。

Karpathy自身がH100で2日間走らせたところ、約700件のコード編集が発生し、そのうち約20件の変更が生き残りました。起動前の val_bpb 0.9979 が、89実験で 0.9773、さらに126実験で 0.9697 まで改善されたことがREADMEのログで公開されています。「朝起きたら、より良いモデルになっていた」という体験を最小構成で実現した点が、リリース直後から注目を集めた理由です。

主な機能

技術スタック

導入方法

# 1. uv をインストール(未導入の場合)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 依存ライブラリをインストール
uv sync

# 3. データ準備とトークナイザー学習(初回のみ、約2分)
uv run prepare.py

# 4. 動作確認として1回だけ手動学習(約5分)
uv run train.py

動作確認後、ClaudeやCodexのエージェントをリポジトリに向けて起動します。許可設定をオフにし、次のように一言プロンプトを送るだけです。

program.md を読んで、新しい実験を始めましょう。まずセットアップから。

あとはエージェントが自律的にループを回します。翌朝、val_bpb のログとともに改善されたモデルが待っています。

競合比較

項目 autoresearch W&B Sweeps Ray Tune Optuna
エージェントによるコード自律編集 あり なし なし なし
自然言語で研究方針を指定 あり(program.md) なし なし なし
固定タイムバジェットによる公正比較 あり なし なし なし
セットアップの手軽さ 3ファイルのみ 設定ファイル要 設定ファイル要 設定ファイル要
シングルGPU最適化 特化 汎用 汎用 汎用
実験の採否自動判定 あり なし なし なし

W&B SweepsやRay Tuneは「人間が設計した探索空間を効率的に走る」ツールです。autoresearchは「探索空間の設計そのものをエージェントに委ねる」点で根本的に異なります。RAGを使った検索拡張生成の実装方法についてはRAGFlow エンタープライズRAG:大規模なRAG構築方法を解説が参考になります。

こんな人におすすめ

参考リンク

よくある質問
autoresearchとは何ですか?
Andrej Karpathyが公開した約630行のPythonツールで、AIエージェントがtrain.pyを自律編集し5分の学習サイクルを繰り返してLLMを改善します。
autoresearchの構成ファイル数は?
prepare.py・train.py・program.mdの3ファイルのみで完結するミニマル設計です。
autoresearchの実績は?
Karpathy自身がH100で2日間走らせ、約700件のコード編集からval_bpbを0.9979から0.9697まで改善した実績があります。
autoresearchとW&B Sweepsの違いは?
W&B Sweepsは人間が設計した探索空間を効率的に走るツールですが、autoresearchは探索空間の設計そのものをエージェントに委ねる点で根本的に異なります。
広告
🔌
MCP対応ツール特集
Claude Codeと連携できるMCPサーバーの日本語解説まとめ
GitHub で見る X 🧵 Threads Facebook LINE B! はてブ
Next Read →
🦸 obra/superpowers:AIコーディングエージェントにTDDと構造化ワークフローを自動注入
関連記事
📘 TypeScriptの型設計、Matt Pocockのスキル集で基礎から鍛え直した
型を深く理解することで、実装の細部まで堅牢に設計できるようになった
2026.03.28
🔍 Claude、.claude/フォルダの内部構造が明らかに。エージェント時代の準備整う
Claudeの隠れたフォルダ「.claude/」の仕組みと機能が詳細に解説。エージェント機能の動作メカニズムと実装パターンが判明。
2026.03.28
🧪 AIエージェントの実験を自動化できるツール見つけた
複数のAIエージェント構成を同時にテストして、パフォーマンスを比較できる環境が手に入った
2026.03.28
🔍 研究論文の自動抽出、Claude連携でこんなに楽になるんだ
大量の論文からAIが勝手に関連情報を引っ張ってくれて、手作業が9割減った
2026.03.28
← Agency Agents:専門AIエージェントを組み合わせてAIワークフロー自動化を実現する方法 obra/superpowers:AIコーディングエージェントにTDDと構造化ワークフローを自動注入 →