はじめに:研究発表の準備は面倒だ
研究者なら誰もが経験する「スライド作成地獄」。論文が完成した喜びも束の間、学会発表のためのスライド作成が待っています。
- 数十ページの論文を15分に圧縮する作業
- 重要なポイントの取捨選択に悩む夜
- デザインの統一感を出すための微調整
これらの時間的コストは、本来研究に費やすべき貴重な時間を奪ってしまいます。
Paper2Slidesとは?
HKUDSが開発したAI駆動のスライド自動生成ツール「Paper2Slides」は、PDFやWord形式の論文を読み込み、学術的な品質のスライドを自動生成してくれます。
• PDF/Word論文からPPTXを自動生成 • 4段階パイプラインによる高品質な出力 • 学術論文特化のRAG実装 • カスタマイズ可能なテーマ対応
システムアーキテクチャ全体像
Paper2Slidesは Backend-for-Frontend (BFF) パターンを採用し、以下の技術スタックで構成されています。
| レイヤー 技術/ライブラリ | 役割 | |
|---|---|---|
| Frontend | React, Vite, TailwindCSS | ユーザーインターフェース、ファイルアップロード |
| Backend API | Python (FastAPI), Uvicorn | REST API、ジョブ管理 |
| Core Logic | Python 3.11+, LangChain | 文書解析、RAG、スライド生成 |
| LLM Provider | OpenAI API, Gemini API | 推論、要約、アウトライン作成 |
| Storage | ローカルファイルシステム | 中間アーティファクト、最終成果物 |
4段階パイプラインの詳細
システムの核心は4つのシーケンシャル処理ステージで、各ステージは前のステージの出力を入力とします。
Stage 1: RAG & Parsing
DocumentLoader が多様なフォーマットを正規化し、 VectorStoreManager が検索用インデックスを構築します。
PDFからテキストと画像の座標を抽出し、ノイズ除去(ヘッダー/フッター削除)を行った上で、テキストチャンクの埋め込みベクトル化を実施します。
Stage 2: Summary & Analysis
ContentAnalyzer が文書の論理構造を抽出し、章・節・項のツリー構造を作成します。
{
"title": "Paper Title",
"sections": [
{
"heading": "Introduction",
"content": "...",
"figures": ["fig1.png"]
}
]
}
Stage 3: Planning & Generation
PresentationPlanner がスライド全体の構成案を作成し、 ScriptWriter が各スライドの詳細コンテンツを生成します。
学術的トーンを維持しつつ、簡潔な表現を心がけます。System Promptで「専門用語を適切に使用し、平易な説明を加える」ように指示しています。
Stage 4: Rendering
PPTXBuilder がpython-pptxを使用してスライドを生成。テーマ適用、レイアウト制御、数式の画像化などを行います。
API設計のポイント
FastAPIベースのREST APIで以下のエンドポイントを提供:
| メソッド | パス | 説明 |
|---|---|---|
| POST | /api/v1/upload | 文書アップロード |
| POST | /api/v1/generate | 生成プロセス開始 |
| GET | /api/v1/status/{job_id} | 進捗確認 |
| GET | /api/v1/download/{job_id} | 最終成果物DL |
生成処理は時間がかかるため、ジョブIDを返却し、ポーリング方式で進捗を確認します。WebSocketでのリアルタイム更新も検討中です。
技術的ハイライト
LangChain活用のベストプラクティス
LangChainのRAG機能を論文特化にカスタマイズ。学術論文の構造(Abstract, Introduction, Method, Results, “Conclusion)を理解し、適切なチャンキング戦略を採用しています。
チェックポイントシステム
各ステージ間でJSON形式のチェックポイントを保存することで、エラー時の再開やデバッグを容易にしています。
チェックポイントのおかげで、Stage 3でLLM APIのエラーが発生しても、Stage 2から再開できます。開発効率が大幅に向上しました。
実際の使い方
- 論文ファイル(PDF/Word)をアップロード
- スライドスタイルと枚数を指定
- 生成プロセスを開始(通常5-10分)
- プレビュー確認と微調整
- PPTXファイルをダウンロード
生成例
Paper2Slidesは様々なスタイルでスライドを生成できます。以下は実際の生成例です:
ドラえもんスタイル
アカデミックスタイル
自然言語でスタイルを指定することも可能です。「スタジオジブリのアニメスタイルで、温かみのある水彩画調に」といった指示でオリジナルテーマを作成できます。
今後の展望と改善点
- + 論文特化の高精度なRAG実装
- + チェックポイントシステムの堅牢性
- + オープンソースでの開発透明性
- - 現在は英語論文のみ対応
- - 生成時間がまだ長め(5-10分)
- - 数式の複雑なレイアウトに限界
今後のロードマップとして、多言語対応、リアルタイム生成、パワーポートテンプレートの拡充などを計画しています。
AIツールを使いこなすことで、プレゼン資料作成の「苦行」は、楽しいクリエイティブワークへと変わります。もし、最新のAIツールを活用してビジネスや研究の現場で即戦力となる資料を爆速で作りたいなら、以下のガイドも非常に参考になります。
AIプレゼン革命: 企画・構成・デザインが5分で終わる!Gamma & Tome実践ガイド
おすすめ書籍紹介
GammaやTomeといったAIプレゼンツールの具体的な操作方法から、聴衆を惹きつけるストーリー構成の作り方まで。AI時代に必須の『プレゼンスキル』を最短で身につけるための一冊です。
まとめ
Paper2Slidesは、研究者の生産性向上に大きく貢献するツールです。技術的にもLangChainやFastAPIの実践的な学習素材として価値があります。
GitHubでHKUDS/Paper2Slidesリポジトリをクローンし、READMEの手順に従ってセットアップします。OpenAI APIキーが必要です。
リポジトリ : https://github.com/HKUDS/Paper2Slides
ワンコマンドで実行 :
python -m paper2slides --input paper.pdf --output slides --style doraemon --length medium --fast --parallel 2 関連リソース






⚠️ コメントのルール
※違反コメントはAIおよび管理者により予告なく削除されます
まだコメントがありません。最初のコメントを投稿しましょう!