😅
😅

論文スライド作成の課題

  • 研究者なら誰もが経験する「スライド作成地獄」, 手作業での要約とデザイン調整の非効率性

  • 時間的コストと品質のトレードオフ

Slide 1 of 3Remaining 2

はじめに:研究発表の準備は面倒だ

研究者なら誰もが経験する「スライド作成地獄」。論文が完成した喜びも束の間、学会発表のためのスライド作成が待っています。

  • 数十ページの論文を15分に圧縮する作業
  • 重要なポイントの取捨選択に悩む夜
  • デザインの統一感を出すための微調整

これらの時間的コストは、本来研究に費やすべき貴重な時間を奪ってしまいます。

Paper2Slidesとは?

HKUDSが開発したAI駆動のスライド自動生成ツール「Paper2Slides」は、PDFやWord形式の論文を読み込み、学術的な品質のスライドを自動生成してくれます。

Paper2Slides Doraemon Style Poster
💡 特徴

• PDF/Word論文からPPTXを自動生成 • 4段階パイプラインによる高品質な出力 • 学術論文特化のRAG実装 • カスタマイズ可能なテーマ対応

システムアーキテクチャ全体像

Paper2Slidesは Backend-for-Frontend (BFF) パターンを採用し、以下の技術スタックで構成されています。

レイヤー 技術/ライブラリ 役割
Frontend React, Vite, TailwindCSS ユーザーインターフェース、ファイルアップロード
Backend API Python (FastAPI), Uvicorn REST API、ジョブ管理
Core Logic Python 3.11+, LangChain 文書解析、RAG、スライド生成
LLM Provider OpenAI API, Gemini API 推論、要約、アウトライン作成
Storage ローカルファイルシステム 中間アーティファクト、最終成果物

4段階パイプラインの詳細

システムの核心は4つのシーケンシャル処理ステージで、各ステージは前のステージの出力を入力とします。

Stage 1: RAG & Parsing

DocumentLoader が多様なフォーマットを正規化し、 VectorStoreManager が検索用インデックスを構築します。

📝 技術的ポイント

PDFからテキストと画像の座標を抽出し、ノイズ除去(ヘッダー/フッター削除)を行った上で、テキストチャンクの埋め込みベクトル化を実施します。

Stage 2: Summary & Analysis

ContentAnalyzer が文書の論理構造を抽出し、章・節・項のツリー構造を作成します。

{
 "title": "Paper Title",
 "sections": [
 {
 "heading": "Introduction",
 "content": "...",
 "figures": ["fig1.png"]
 }
 ]
}

Stage 3: Planning & Generation

PresentationPlanner がスライド全体の構成案を作成し、 ScriptWriter が各スライドの詳細コンテンツを生成します。

AIアシスタント
AIアシスタント

学術的トーンを維持しつつ、簡潔な表現を心がけます。System Promptで「専門用語を適切に使用し、平易な説明を加える」ように指示しています。

Stage 4: Rendering

PPTXBuilder がpython-pptxを使用してスライドを生成。テーマ適用、レイアウト制御、数式の画像化などを行います。

API設計のポイント

FastAPIベースのREST APIで以下のエンドポイントを提供:

メソッドパス説明
POST/api/v1/upload文書アップロード
POST/api/v1/generate生成プロセス開始
GET/api/v1/status/{job_id}進捗確認
GET/api/v1/download/{job_id}最終成果物DL
⚠️ 非同期処理

生成処理は時間がかかるため、ジョブIDを返却し、ポーリング方式で進捗を確認します。WebSocketでのリアルタイム更新も検討中です。

技術的ハイライト

LangChain活用のベストプラクティス

LangChainのRAG機能を論文特化にカスタマイズ。学術論文の構造(Abstract, Introduction, Method, Results, “Conclusion)を理解し、適切なチャンキング戦略を採用しています。

チェックポイントシステム

各ステージ間でJSON形式のチェックポイントを保存することで、エラー時の再開やデバッグを容易にしています。

開発者
開発者

チェックポイントのおかげで、Stage 3でLLM APIのエラーが発生しても、Stage 2から再開できます。開発効率が大幅に向上しました。

実際の使い方

  1. 論文ファイル(PDF/Word)をアップロード
  2. スライドスタイルと枚数を指定
  3. 生成プロセスを開始(通常5-10分)
  4. プレビュー確認と微調整
  5. PPTXファイルをダウンロード

生成例

Paper2Slidesは様々なスタイルでスライドを生成できます。以下は実際の生成例です:

ドラえもんスタイル

Paper2Slides Doraemon Slides Preview

アカデミックスタイル

Paper2Slides Academic Slides Preview
📝 スタイルカスタマイズ

自然言語でスタイルを指定することも可能です。「スタジオジブリのアニメスタイルで、温かみのある水彩画調に」といった指示でオリジナルテーマを作成できます。

今後の展望と改善点

  • + 論文特化の高精度なRAG実装
  • + チェックポイントシステムの堅牢性
  • + オープンソースでの開発透明性
  • - 現在は英語論文のみ対応
  • - 生成時間がまだ長め(5-10分)
  • - 数式の複雑なレイアウトに限界

今後のロードマップとして、多言語対応、リアルタイム生成、パワーポートテンプレートの拡充などを計画しています。

AIツールを使いこなすことで、プレゼン資料作成の「苦行」は、楽しいクリエイティブワークへと変わります。もし、最新のAIツールを活用してビジネスや研究の現場で即戦力となる資料を爆速で作りたいなら、以下のガイドも非常に参考になります。

💡

おすすめ書籍紹介

GammaやTomeといったAIプレゼンツールの具体的な操作方法から、聴衆を惹きつけるストーリー構成の作り方まで。AI時代に必須の『プレゼンスキル』を最短で身につけるための一冊です。

まとめ

Paper2Slidesは、研究者の生産性向上に大きく貢献するツールです。技術的にもLangChainやFastAPIの実践的な学習素材として価値があります。

実際に試すには

GitHubでHKUDS/Paper2Slidesリポジトリをクローンし、READMEの手順に従ってセットアップします。OpenAI APIキーが必要です。

リポジトリ : https://github.com/HKUDS/Paper2Slides

ワンコマンドで実行 :

python -m paper2slides --input paper.pdf --output slides --style doraemon --length medium --fast --parallel 2

関連リソース