30秒でわかる本記事の要点
Paper2Slides 是一款通过活用 Gemini 2.0 Flash 和 Marp,显著减少幻灯片制作时间的创新工具。通过结合大上下文输入和基于 Markdown 的样式处理,实现了高质量的幻灯片生成。
- • 利用 Gemini 2.0 Flash 的大上下文,支持全文本论文输入
- • 依靠 Marp(Markdown 生态)实现高速且精美的幻灯片生成
- • 采用 Next.js 和 Vercel 进行快速开发与部署
- • 针对幻灯片结构优化的提示词工程
前言
在现代研究和商业领域,信息的收集与分享速度比以往任何时候都更加重要。然而,“ 阅读论文并将其总结为演示幻灯片 ”这一任务,至今仍是耗时最长的创意任务之一。
为了解决这一问题,我开发了 Paper2Slides 。该工具是一款只需上传论文 PDF,即可自动生成精美幻灯片的 AI 应用。
在本设计文档中,我将分享 Paper2Slides 的技术背景、架构设计以及实现细节。
该项目的目标不仅仅是“总结”。 而是要创造一个“能够完成到最终输出形式(幻灯片)的助手”,让用户只需专注于检查和演示。
项目概述
核心理念
- 零操作(Zero Touch) :最少化的用户设置,上传即生成。
- 默认精美(Beauty as Default) :利用 Marp 主题,默认提供精美的幻灯片设计。
- 开发者友好(Developer Friendly) :采用基于 Markdown 的开放架构。
核心技术栈
| 层级 | 采用技术 | 选择理由 |
|---|---|---|
| 前端 | Next.js (App Router) | 高开发体验与性能 |
| 样式 | Tailwind CSS | 高效的 UI 开发 |
| 大语言模型 | Gemini 2.0 Flash | 超大上下文窗口与响应速度 |
| 幻灯片引擎 | Marp / Marpit | 与 Markdown 的标准化结合 |
| 部署 | Vercel | 无缝的 CI/CD |
系统架构
系统由简单且稳健的无服务器(Serverless)架构组成。
1. 超大上下文 PDF 处理
Paper2Slides 活用了 Gemini 2.0 Flash 。由于其具备 100 万 Token 的上下文窗口,因此可以一次性输入超长论文甚至多篇相关论文。
以往通常采用 RAG(检索增强生成)方法提取必要部分并输入 AI。但在“幻灯片结构化”过程中,往往需要理解论文的全局上下文,Gemini 的超大上下文在此展现出了巨大优势。
2. 基于 Markdown 的幻灯片生成
幻灯片引擎采用了 Marp 。Marp 是一款可以将 Markdown 转换为精美幻灯片的工具。
为何选择 Marp?
- 一致性 :LLM 的输出本就是 Markdown,因此契合度极高。
- 版本控制 :幻灯片内容可以作为文本进行管理。
- 样式定制 :可以通过 CSS 轻松进行自定义。
关键实现细节
提示词工程(Prompt Engineering)
该应用最重要的部分就是“幻灯片生成的提示词”。我使用以下系统提示词来指导结构和设计。
- 角色设定 :“你是一名专业的演示文稿设计师。” - 结构指令
:“每张幻灯片必须包含一个 H1 标题和 3-5 个项目符号。” - 格式指令
:“严格按照 Marp Markdown 格式输出。使用
---分隔幻灯片。” - 内容指令 :“从论文中提取关键图表和公式,并进行适当表现。”
PDF 提取与文本预处理
PDF 提取使用了 pdf-parse 等库或云原生 OCR。为了针对 Gemini 优化 Token 使用,在输入前会尽可能剔除多余的页眉、页脚及参考文献信息。
实时预览
在前端使用 @marp-team/marp-react,提供生成过程中 Markdown 的实时预览。这使得用户可以在 AI 生成的同时即时确认幻灯片质量。
挑战与对策
1. AI 的“幻觉(Hallucination)”
问题 :AI 偶尔会引用不存在的数据或产生错误的总结。 对策 :实现引用机制。明确指令 AI“标明信息来源章节”,提高透明度以便用户进行交叉核对。
2. 样式处理的难度
问题 :用 Markdown 生成复杂的布局(如两栏分布)比较困难。 对策 :使用 Marpit 的 Directives。通过在生成的 Markdown 中嵌入预定义的 CSS 类,使得利用 LLM 表现复杂布局成为可能。
未来路线图
- 多语言支持 :在幻灯片生成过程中添加翻译功能。
- 图表自动生成 :与 Mermaid.js 集成,实现流程图等的自动生成。
- 模板商店 :允许用户上传和分享自定义的 Marp 主题。
- 集成方案 :支持 PowerPoint (PPTX) 导出。
结语
Paper2Slides 不仅仅是一个 AI 总结工具,它是研究人员和商务人士的“创意增强器”。通过将信息格式转换的机械性工作自动化,人类可以回归到“思考与分享”这一本质任务中。
AI 工具的未来在于“输出格式的整合”。打通从文本到视觉演示的路径,将显著改变人类的知识分享方式。






⚠️ コメントのルール
※違反コメントはAIおよび管理者により予告なく削除されます
まだコメントがありません。最初のコメントを投稿しましょう!