演讲生成黑科技,PresentAgent从文本到演讲视频

该项目是AI Geeks,澳大利亚人工智能研究所,利物浦大学和拉特罗布大学的联合作品。

我们提出了现有视频,可以将长文档转换为解释的示威视频。大多数现有的方法仅限于生成静态幻灯片或文本摘要,我们的解决方案通过生成高度同步的视觉内容和语音评论来破坏这些局限性,并实际上模拟了人类风格的演示文稿。

纸张标题:呈现的:介绍视频生成纸张地址:3https://arxiv.org/abs/2507.04036代码:3https://ARXIV.org/abs/2507.04036代码:3https://github.com/aigeekesgroup/presentagent

为了实现这种集成,如图1所示,现在采用了模块化过程,其中包括以下步骤:1。系统地分割输入文档; 2。计划和渲染幻灯片风格的视觉框架; 3.使用大语言模型和文本到语音模型生成上下文语音解释; 4。最后,准确地对齐音频和视觉内容,然后将它们无缝地组合到完整的视频中。

图1当前概述。该系统将文档(例如网页)作为输入,并通过以下一代过程:(1)文档处理,(2)结构化幻灯片生成,(3)同步字幕创建,以及(4)语音综合。最终输出是一个演示视频,结合了幻灯片和同步解释。紫色突出显示了图中的一部分,代表了生成过程中的关键中间输出。

考虑到评估这种多模式输出的困难,我们引入了PresentEval,这是一个由视觉语言模型驱动的统一评估框架,该框架从以下三个关键维度中全面得分:内容保真度,视觉清晰度和受众理解。

这些结果证明了可控的多模式在将静态文本材料转换为动态,高效且随时可用的演示格式的巨大潜力。

我们的主要贡献如下:

提出了一项新任务:首次提出了“到演示视频生成”的新任务,旨在自动从各种长期文本中生成结构化的幻灯片视频,并配备了语音评论。

设计当前的系统:提出了一个模块化生成框架,涵盖文档分析,意识幻灯片构造,讲座符号生成和视听同步,以实现可控制且可解释的视频生成过程。

演讲生成黑科技,PresentAgent从文本到演讲视频

提出了当前的评估框架:建立了由视觉语言模型驱动的多维评估机制,以对来自内容,愿景和理解等维度的视频进行迅速评分。

构建高质量评估数据集:我们创建了一个具有30对真实文档和相应演示视频的数据集。实验和消融研究表明,现在不仅接近人类的绩效,而且比现有解决方案要好得多。

演示视频评估基准(Presentation Benchmark)

图2我们评估了基准中的文档多样性

为了支持文档到DEMO视频生成评估,我们构建了一个多域,多文本的现实世界比较数据集——Doc2present Benchmark,其中每对数据都包含文档和匹配的演示视频。与仅关注摘要或幻灯片的基准不同,我们的数据包括:

业务报告产品手册政策简报教程文件等

如图2所示,每个文档都伴随着手动视频说明。

图3我们的评估方法框架的概述

与Paper2Poster的方法类似,我们设计了一个基于测验的评估框架,即通过视觉语言模型,根据生成的视频(幻灯片+说明)回答内容问题,以模拟观众的理解水平。同时,我们还引入了人工视频作为参考标准,无论是用于评分校准还是作为性能上限比较。

评估框架由两个部分组成:

演讲生成黑科技,PresentAgent从文本到演讲视频

客观测验评估:衡量通过多项选择问题传递的信息的准确性;主观评分评估:从内容质量,视觉/音频设计和理解清晰度等视频中评估了1-5个评分;如图3所示,这两种类型的指标共同构成了生成视频的综合质量评估系统。

PresentAgent

图4当前框架的概述

该系统将多种类型的文档(例如论文,网页,PDF等)作为输入,并遵循模块化生成过程:

首先,进行了大纲的生成;检索最合适的幻灯片模板;然后在视觉语言模型的帮助下生成幻灯片和评论。评论通过TTS转换为音频,并合成为完整的演示视频;为了评估视频质量,我们为多个维度设计了提示。最后,该提示是基于视觉语言模型(VLM)输入评分模块的,以输出每个维度的索引结果。

语义细分;结构化幻灯片生成;通言解释世代;视频和同步视频的视觉和音频组合。

考虑到高质量的生成和细粒度评估,模块化设计支持可控性,可解释性和多模式对齐。以下将分别介绍每个模块。

实验

我们构建了一个由30个长文档组成的测试集,每个文档都有人工制作的演示视频作为参考。这些文件涵盖了教育,产品描述,科学研究评论和政策简介等主题。

使用PresentEval框架评估所有生成和人工视频。由于目前没有模型可以在2分钟的多模式视频中充分评估,因此我们采用了细分评估策略:

演讲生成黑科技,PresentAgent从文本到演讲视频

客观评估阶段:使用QWEN-VL-2.5-3B回答固定的多项选择问题以评估内容理解;主观评分阶段:提取视频和音频剪辑,并使用QWEN-OMNI-7B分别为内容质量,视觉/审核质量和理解难度评分。

主要实验结果

在测试准确性方面,大多数呈现的变体与人工基准结果相当甚至更好(0.56)。其中,Claude-3.7-Sonnet的准确率最高0.64,表明生成的内容和源文档之间存在很强的一致性。其他模型,例如QWEN-VL-MAX和GEMINI-2.5-FLASH得分略低(0.52),表明实际上仍然有改进的余地。

就主观质量而言,人类进行的演示仍然保持视频和音频的整体评级。但是,一些当前的变体显示出竞争性能。例如,GPT-4O-MINI在视频内容和视觉吸引力(均接近或达到4.8)中得分最高,而Claude-3.7-Sonnet的音频质量表现最高(均为4.53)。

有趣的是,Gemini-2.5-Flash的视觉质量得分最高(5.0),但在理解方面却较低,这反映了美学和清晰度之间的权衡。这些结果突出了我们模块化生成过程的有效性以及统一评估框架在捕获演示质量多个维度方面的实践价值。

案例分析

图5 Presentagent会自动生成一个演示视频示例

用户评论


|赤;焰﹏゛

这技术也太牛了吧,感觉以后留学presentation可以省好多时间

    有5位网友表示赞同!


稳妥

对语言不好的人来说简直是福音,不用紧张地说出来!

    有13位网友表示赞同!


呆萌

这样可以直接生成PPT的视频内容吗?想想都很方便!

    有6位网友表示赞同!


陌颜

国外演讲课上可以用这个工具演示吧,老师肯定爱听的

    有14位网友表示赞同!


晨与橙与城

留学演讲压力降低了好多,可以多花点时间准备稿子好好润色

    有5位网友表示赞同!


不要冷战i

学习英语苦手的我以后终于不用担心演讲环节啦!

    有11位网友表示赞同!


艺菲

我觉得这种技术可以应用到很多场景下啊,不止是留学演讲!

    有6位网友表示赞同!


我怕疼别碰我伤口

视频质量怎么样?能不能达到专业水准呢?

    有16位网友表示赞同!


海盟山誓总是赊

要是能自定义演讲风格和语调就好了!

    有13位网友表示赞同!


汐颜兮梦ヘ

这个工具会不会太“智能化”了,会不会显得比较缺乏个人特色?

    有18位网友表示赞同!


逃避

是不是可以用不同的语言来生成视频呢?

    有20位网友表示赞同!


浮光浅夏ζ

这技术应该会很受欢迎吧,尤其在留学市场上

    有5位网友表示赞同!


有你,很幸福

想象一下,学生可以提前准备好很多演讲内容储备!

    有8位网友表示赞同!


不离我

以后面试的时候也可以用这个工具准备一下演示视频吧!

    有13位网友表示赞同!


孤街浪途

这么方便的技术,价格怎么样?会不会太贵?

    有20位网友表示赞同!


巷雨优美回忆

希望这种技术会越来越成熟,能应用到更广泛的领域!

    有18位网友表示赞同!


棃海

这真是个时代的进步!对很多人都非常友善和便利!

    有6位网友表示赞同!


清羽墨安

我觉得科技的发展越来越让人激动人心了!

    有20位网友表示赞同!


羁绊你

期待未来更多创意的黑科技产品!

    有12位网友表示赞同!


绝版女子

希望大家都能用这种技术去创造更多美好的东西!

    有18位网友表示赞同!

上一篇
下一篇

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@zhutibaba.com

工作时间:周一至周五,9:00-17:30,节假日休息