30秒でわかる本記事の要点

Paper2Slides 是一款通过活用 Gemini 2.0 Flash 和 Marp,显著减少幻灯片制作时间的创新工具。通过结合大上下文输入和基于 Markdown 的样式处理,实现了高质量的幻灯片生成。

  • 利用 Gemini 2.0 Flash 的大上下文,支持全文本论文输入
  • 依靠 Marp(Markdown 生态)实现高速且精美的幻灯片生成
  • 采用 Next.js 和 Vercel 进行快速开发与部署
  • 针对幻灯片结构优化的提示词工程

前言

在现代研究和商业领域,信息的收集与分享速度比以往任何时候都更加重要。然而,“ 阅读论文并将其总结为演示幻灯片 ”这一任务,至今仍是耗时最长的创意任务之一。

为了解决这一问题,我开发了 Paper2Slides 。该工具是一款只需上传论文 PDF,即可自动生成精美幻灯片的 AI 应用。

在本设计文档中,我将分享 Paper2Slides 的技术背景、架构设计以及实现细节。

User

该项目的目标不仅仅是“总结”。 而是要创造一个“能够完成到最终输出形式(幻灯片)的助手”,让用户只需专注于检查和演示。

项目概述

核心理念

  • 零操作(Zero Touch) :最少化的用户设置,上传即生成。
  • 默认精美(Beauty as Default) :利用 Marp 主题,默认提供精美的幻灯片设计。
  • 开发者友好(Developer Friendly) :采用基于 Markdown 的开放架构。

核心技术栈

层级采用技术选择理由
前端Next.js (App Router)高开发体验与性能
样式Tailwind CSS高效的 UI 开发
大语言模型Gemini 2.0 Flash超大上下文窗口与响应速度
幻灯片引擎Marp / Marpit与 Markdown 的标准化结合
部署Vercel无缝的 CI/CD

系统架构

系统由简单且稳健的无服务器(Serverless)架构组成。

1. 超大上下文 PDF 处理

Paper2Slides 活用了 Gemini 2.0 Flash 。由于其具备 100 万 Token 的上下文窗口,因此可以一次性输入超长论文甚至多篇相关论文。

以往通常采用 RAG(检索增强生成)方法提取必要部分并输入 AI。但在“幻灯片结构化”过程中,往往需要理解论文的全局上下文,Gemini 的超大上下文在此展现出了巨大优势。

2. 基于 Markdown 的幻灯片生成

幻灯片引擎采用了 Marp 。Marp 是一款可以将 Markdown 转换为精美幻灯片的工具。

为何选择 Marp?

  • 一致性 :LLM 的输出本就是 Markdown,因此契合度极高。
  • 版本控制 :幻灯片内容可以作为文本进行管理。
  • 样式定制 :可以通过 CSS 轻松进行自定义。

关键实现细节

提示词工程(Prompt Engineering)

该应用最重要的部分就是“幻灯片生成的提示词”。我使用以下系统提示词来指导结构和设计。

系统提示词要点
  • 角色设定 :“你是一名专业的演示文稿设计师。” - 结构指令 :“每张幻灯片必须包含一个 H1 标题和 3-5 个项目符号。” - 格式指令 :“严格按照 Marp Markdown 格式输出。使用 --- 分隔幻灯片。” - 内容指令 :“从论文中提取关键图表和公式,并进行适当表现。”

PDF 提取与文本预处理

PDF 提取使用了 pdf-parse 等库或云原生 OCR。为了针对 Gemini 优化 Token 使用,在输入前会尽可能剔除多余的页眉、页脚及参考文献信息。

实时预览

在前端使用 @marp-team/marp-react,提供生成过程中 Markdown 的实时预览。这使得用户可以在 AI 生成的同时即时确认幻灯片质量。

挑战与对策

1. AI 的“幻觉(Hallucination)”

问题 :AI 偶尔会引用不存在的数据或产生错误的总结。 对策 :实现引用机制。明确指令 AI“标明信息来源章节”,提高透明度以便用户进行交叉核对。

2. 样式处理的难度

问题 :用 Markdown 生成复杂的布局(如两栏分布)比较困难。 对策 :使用 Marpit 的 Directives。通过在生成的 Markdown 中嵌入预定义的 CSS 类,使得利用 LLM 表现复杂布局成为可能。

未来路线图

  1. 多语言支持 :在幻灯片生成过程中添加翻译功能。
  2. 图表自动生成 :与 Mermaid.js 集成,实现流程图等的自动生成。
  3. 模板商店 :允许用户上传和分享自定义的 Marp 主题。
  4. 集成方案 :支持 PowerPoint (PPTX) 导出。

结语

Paper2Slides 不仅仅是一个 AI 总结工具,它是研究人员和商务人士的“创意增强器”。通过将信息格式转换的机械性工作自动化,人类可以回归到“思考与分享”这一本质任务中。

User

AI 工具的未来在于“输出格式的整合”。打通从文本到视觉演示的路径,将显著改变人类的知识分享方式。

你对 Paper2Slides 的设计理解了多少?

Q1. 采用 Gemini 2.0 Flash 的最大理由是什么?

Q2. 幻灯片引擎使用的是哪个工具?

Q3. 针对“幻觉”问题的推荐对策是什么?

参考链接