研究者なら誰もが経験する「スライド作成地獄」。論文が完成した喜びも束の間、学会発表のためのスライド作成が待っています。
これらの時間的コストは、本来研究に費やすべき貴重な時間を奪ってしまいます。
HKUDSが開発したAI駆動のスライド自動生成ツール「Paper2Slides」は、PDFやWord形式の論文を読み込み、学術的な品質のスライドを自動生成してくれます。
• PDF/Word論文からPPTXを自動生成 • 4段階パイプラインによる高品質な出力 • 学術論文特化のRAG実装 • カスタマイズ可能なテーマ対応
Paper2Slidesは Backend-for-Frontend (BFF) パターンを採用し、以下の技術スタックで構成されています。
| レイヤー 技術/ライブラリ | 役割 | |
|---|---|---|
| Frontend | React, Vite, TailwindCSS | ユーザーインターフェース、ファイルアップロード |
| Backend API | Python (FastAPI), Uvicorn | REST API、ジョブ管理 |
| Core Logic | Python 3.11+, LangChain | 文書解析、RAG、スライド生成 |
| LLM Provider | OpenAI API, Gemini API | 推論、要約、アウトライン作成 |
| Storage | ローカルファイルシステム | 中間アーティファクト、最終成果物 |
システムの核心は4つのシーケンシャル処理ステージで、各ステージは前のステージの出力を入力とします。
DocumentLoader が多様なフォーマットを正規化し、 VectorStoreManager が検索用インデックスを構築します。
PDFからテキストと画像の座標を抽出し、ノイズ除去(ヘッダー/フッター削除)を行った上で、テキストチャンクの埋め込みベクトル化を実施します。
ContentAnalyzer が文書の論理構造を抽出し、章・節・項のツリー構造を作成します。
{
"title": "Paper Title",
"sections": [
{
"heading": "Introduction",
"content": "...",
"figures": ["fig1.png"]
}
]
}
PresentationPlanner がスライド全体の構成案を作成し、 ScriptWriter が各スライドの詳細コンテンツを生成します。
学術的トーンを維持しつつ、簡潔な表現を心がけます。System Promptで「専門用語を適切に使用し、平易な説明を加える」ように指示しています。
PPTXBuilder がpython-pptxを使用してスライドを生成。テーマ適用、レイアウト制御、数式の画像化などを行います。
FastAPIベースのREST APIで以下のエンドポイントを提供:
| メソッド | パス | 説明 |
|---|---|---|
| POST | /api/v1/upload | 文書アップロード |
| POST | /api/v1/generate | 生成プロセス開始 |
| GET | /api/v1/status/{job_id} | 進捗確認 |
| GET | /api/v1/download/{job_id} | 最終成果物DL |
生成処理は時間がかかるため、ジョブIDを返却し、ポーリング方式で進捗を確認します。WebSocketでのリアルタイム更新も検討中です。
LangChainのRAG機能を論文特化にカスタマイズ。学術論文の構造(Abstract, Introduction, Method, Results, “Conclusion)を理解し、適切なチャンキング戦略を採用しています。
各ステージ間でJSON形式のチェックポイントを保存することで、エラー時の再開やデバッグを容易にしています。
チェックポイントのおかげで、Stage 3でLLM APIのエラーが発生しても、Stage 2から再開できます。開発効率が大幅に向上しました。
Paper2Slidesは様々なスタイルでスライドを生成できます。以下は実際の生成例です:
ドラえもんスタイル
アカデミックスタイル
自然言語でスタイルを指定することも可能です。「スタジオジブリのアニメスタイルで、温かみのある水彩画調に」といった指示でオリジナルテーマを作成できます。
今後のロードマップとして、多言語対応、リアルタイム生成、パワーポートテンプレートの拡充などを計画しています。
AIツールを使いこなすことで、プレゼン資料作成の「苦行」は、楽しいクリエイティブワークへと変わります。もし、最新のAIツールを活用してビジネスや研究の現場で即戦力となる資料を爆速で作りたいなら、以下のガイドも非常に参考になります。
おすすめ書籍紹介
GammaやTomeといったAIプレゼンツールの具体的な操作方法から、聴衆を惹きつけるストーリー構成の作り方まで。AI時代に必須の『プレゼンスキル』を最短で身につけるための一冊です。
Paper2Slidesは、研究者の生産性向上に大きく貢献するツールです。技術的にもLangChainやFastAPIの実践的な学習素材として価値があります。
GitHubでHKUDS/Paper2Slidesリポジトリをクローンし、READMEの手順に従ってセットアップします。OpenAI APIキーが必要です。
リポジトリ : https://github.com/HKUDS/Paper2Slides
ワンコマンドで実行 :
python -m paper2slides --input paper.pdf --output slides --style doraemon --length medium --fast --parallel 2 関連リソース