概要
RAGFlowは、Retrieval-Augmented Generation(RAG)とエージェント機能を融合したオープンソースのRAGエンジンです。GitHubで7.6万スターを獲得し、LLMに高品質なコンテキストを提供するためのプラットフォームとして急成長しています。PDF、Word、Excel、画像など多様なドキュメント形式を高精度に解析し、チャンキング・ベクトル化・検索までを一気通貫で処理します。
主な機能
- 高精度文書解析:PDF・Word・Excel・画像・HTMLなど多形式に対応したディープパーシング
- GraphRAG対応:知識グラフベースの高度な検索で、関連性の高い情報を取得
- エージェントテンプレート:事前構築されたエージェントワークフローで素早くシステム構築
- マルチLLM対応:OpenAI、DeepSeek、Ollama等を柔軟に切り替え
- MCP対応:Model Context Protocolによる外部ツール連携
- チャンキング最適化:文書構造を理解した高精度なテキスト分割
- Webクローラー:URLからのコンテンツ自動取得・インデックス化
技術スタック
- バックエンド:Python
- フロントエンド:React、TypeScript
- ベクトルDB:Elasticsearch、Infinity
- LLM統合:OpenAI、DeepSeek、Ollama対応
- デプロイ:Docker Compose
- ライセンス:Apache-2.0
導入方法
前提条件
- Docker と Docker Compose がインストール済みであること
- ポート 80(HTTP)が利用可能であること
インストール手順
- リポジトリのクローン
git clone https://github.com/infiniflow/ragflow.git
cd ragflow
- サービスの起動
docker compose up -d
初回起動時は依存するイメージのダウンロードと初期化が行われるため、数分かかる場合がある。
- 確認とセットアップ
ブラウザで http://localhost にアクセスし、管理画面が表示されることを確認。初期ユーザーでログイン後、ナレッジベースを作成し、ドキュメントをアップロードすると RAG チャットボットが即座に利用可能になる。
試用方法
デモ環境で機能を試す場合は、クラウド版を無料利用できる。
競合比較
| 特徴 | RAGFlow | LangChain | Dify |
|---|---|---|---|
| 文書解析精度 | 非常に高い | 標準的 | 標準的 |
| GraphRAG | ○ | △(要構築) | × |
| エージェント機能 | ○ | ○ | ○ |
| WebUI | ○ | × | ○ |
| セルフホスト | ○ | - | ○ |
こんな人におすすめ
- 社内ナレッジ検索を構築したいチーム:大量の社内ドキュメントを検索可能にしたい
- カスタマーサポート部門:FAQやマニュアルベースの自動応答システムを導入したい
- 法務・コンプライアンス部門:契約書や規定文書の高精度検索が必要
- 研究開発チーム:論文や技術文書のナレッジベースを構築したい
- データプライバシーを重視する企業:クラウドに依存しないセルフホストRAGが必要
実際の使用イメージ
管理画面でナレッジベースを作成し、社内マニュアル(PDF・Word)をドラッグ&ドロップでアップロード。RAGFlowが自動的に文書構造を解析してチャンキング・インデックス化します。チャット画面で質問すると、該当箇所の引用付きで回答が返されます。
RAGシステムへのデータ投入前にPDFを高精度変換したい場合はMinerUが有効です。エージェント機能をさらに拡張したい場合はLangChainやDifyとの組み合わせも検討してみてください。