随着远程办公的普及,通过视频进行沟通的机会日益增多,例如内部说明视频、操作手册以及发给客户的信息。然而,站在摄像机前总是令人紧张,而且布置灯光、麦克风、重录等工作比预想中更费时费力。

“如果能更轻松地制作出高质量视频就好了。”相信很多人都有这种想法。

2025 年 12 月 18 日,Google Workspace 的视频制作应用“Google Vids”搭载了最新的视频生成 AI “Veo 3.1”。这次更新不仅仅是功能的改进,更有可能从根本上改变商务视频的制作方式。AI 数字人(Avatar)说话水平达到与真人难辨的时代已经悄然开启。

在本文中,我们将深入探讨这项技术的进化程度,以及如何在商务场景中具体应用。

🚀
🚀

Veo 3.1 的核心进化

  • 从技术上克服“恐怖谷”效应

  • 通过理解物理法则实现实拍级的自然度

Slide 1 of 1Remaining 0

Veo 3.1 如何跨越“恐怖谷”

Google DeepMind 于 2025 年 10 月 14 日发布了视频生成 AI 模型“Veo 3.1”。该最新版本集成到 Google Vids 的数字人功能中后,数字人的表现力得到了飞跃式的提升。

传统的 AI 数字人总让人感觉有些“违和感”。表情僵硬、动作笨拙,最重要的是口型与说话内容对不上。这些问题被称为“恐怖谷”效应,是导致观众产生不适感的主因。

Veo 3.1 从技术上解决了这些课题。根据 Google 的评价,用户选择它的概率是其他平台的 5 倍。具体而言,它在以下几个方面大幅超越了以往模型:

  • 理解物理法则 :头发的摆动、光线照在皮肤上的质感、阴影的投射等,都达到了与实拍影像难辨真伪的自然水平。
  • 微表情再现 :捕捉人类无意识中进行的眼部和嘴角微小动作,使情感表达更具深度。
  • 时间连贯性 :即使在长视频中,脸部也不会崩坏,背景也不会闪烁,能够维持稳定的影像质量。

凭借这些技术,AI 数字人的质量已达到足以作为“值得信赖的信息发布者”在商务场景中充分应用的水平。

更新进化的三大亮点

随着这次更新,Google Vids 的视频制作发生了怎样的变化?让我们来看看主要的进化点。

口型完全同步,违和感消失

观看视频时最让人在意的是语音与口型之间的脱节。Veo 3.1 能够精确分析输入的文本或语音的音素,实现流畅的对口型(Lip-sync)。即使是发音细微的差别也能准确捕捉,让观众在感觉不到“是 AI 在说话”的前提下,专注于内容本身。

实际使用中,这种高精度令人惊叹。以往的数字人技术只是被定位为“说明用的辅助工具”,而现在已达到可用于正式演示或面向客户的信息发布的水平。

表情与构图的稳定性提升

AI 视频特有的“闪烁(Shimmer)”或“抖动(Jitter)”现象在 Veo 3.1 中得到了大幅改善。数字人通过更自然的表情表达和稳定的构图,实现了专业的外观。

在商务场景中,需要根据传达的内容改变说话方式和表情。在道歉场合应使用沉稳的语调,在新产品发布时则希望以开朗活泼的氛围交谈。

在 Veo 3.1 中,数字人的表情和手势会根据脚本输入时的指示自动调整。

  • 严肃的报告或道歉:沉稳的表情,内敛的工作
  • 新产品或服务介绍:灿烂的笑容,大幅度的手势
  • 面向内部的亲切信息:放松的表情,自然的点头

无需在摄像机前演戏。只需通过文本指示,即可自动生成适合场合的恰当表达。

无需影棚拍摄的极速节奏

传统的视频制作费时费力。预订影棚、布置灯光麦克风、化妆、反复重录。制作一段视频花费一天时间并不少见。

在 Google Vids × Veo 3.1 中,生成高质量数字人视频的速度比以往更快,且不会产生额外成本。就像在 Google Docs 中写文章一样,只需输入脚本并选择数字人。几分钟的渲染后,一段如同真人在影棚拍摄的高质量视频就完成了。

内容修正也非常简单。只需修改文本并重新生成,即可立即得到数字人讲述新内容的视频。在以往需要重录的场景下,现在只需点击几次即可应对,这种速度感对于商务现场来说是巨大的优势。

此外,现在可以生成长达 60 秒的数字人视频,从而实现更有深度的叙事。

商务现场的具体应用场景

这项技术已经在各个业务领域发挥效用。让我们来看看实际的应用案例。

人才开发与培训的高效化

在企业培训和新人教育中,手册视频的更新是极大的负担。如果产品规格发生变化,就需要安排讲师重新拍摄。如果一年需要更新多次,其成本和精力是巨大的。

使用 Google Vids,只需修正脚本,即可立即生成数字人讲述新内容的视频。可以始终维持反映最新信息的培训内容,学员不会因为过时的信息而感到困惑。

提升客户支持质量

基于文本的 FAQ 虽然方便,但在传达复杂步骤或微妙语感方面存在极限。电话支持虽然周到,但对应的时段有限。

使用 AI 数字人的解说视频,可以提供 24 小时 365 天、随时随地的“面对面”式支持。针对常见问题准备好数字人详细解说的视频,客户可以根据自己的节奏深入理解。

降低全球化拓展的门槛

考虑向海外市场扩展时,多语言支持是绕不开的话题。雇佣精通各国语言的发言人并在各种语言下拍摄,对于中小企业来说并不现实。

Veo 3.1 支持 1080p 高分辨率的横屏(16:9)和竖屏(9:16)双宽高比,可以制作针对 SNS 等各种平台优化过的视频。

只需制作一段视频,通过让数字人的口型配合各国语言进行调整,多语言推广将变得更加容易。

管理层及时发布信息

当 CEO 或管理层希望向全员传达信息时,确保本人的时间排期并不容易。即使有重要发布,若拍摄时机对不上,信息发布就会延迟。

在 Google Vids 中,通过使用经过本人许可的官方数字人,即使本人不在场也有可能发布管理层信息。当然,这需要针对安全性和认证进行适当的管理。

视频制作“民主化”带来的变化

Google Vids 的进化正在将视频制作从一项需要特殊技能的工作转变为任何人都能日常使用的工具。

以往,视频制作需要镜头运作、剪辑技术、演讲能力等诸多技能。因此,只有极少数人才或部门在制作视频,其他员工可能会觉得“视频与我无关”。

然而,如果制作视频能像在 Google Docs 中写文章一样手写,沟通的选择就会拓宽。对于不擅长阅读文字的人,可以用视频;视觉上易于理解的内容,可以用视频;注入感情传达的信息,可以用视频。各展所长的信息发布将成为可能。

  • + 无需摄像机,任何人都能制作高质量视频
  • + 修正、更新容易,维持内容新鲜度
  • + 大幅削减多语言拓展的成本与时间
  • + 实现 24/7 全天候面对面沟通
  • - 视频长度上限限制为 10 分钟
  • - 数字人单段限制为 60 秒
  • - 需要考虑数据安全与隐私保护
  • - 人性化温暖与临场感存在极限

导入前需确认的要点

在考虑导入 Google Vids 时,有几点需要注意。

确认 Google Workspace 套餐

Veo 3.1 数字人功能可在 Business Starter、Business Standard、Business Plus、Enterprise、Education Plus 等套餐中使用。请预先确认贵公司的套餐是否适用。

在该阶段(至少到 2026 年 5 月 31 日),Business Starter 等账号也可以访问 Vids 的生成 AI 功能。

此外,Workspace 用户可以获得至少 30 天的 Veo 3.1 数字人高额度促销访问权限,建议利用这段时间尝试功能。

数据安全与隐私

在处理企业机密信息时,确认数据的保存和处理方式非常重要。建议根据自家的安全性政策明确使用范围。

数字人使用许可

在创建以管理层或特定人物为原型的数字人时,必须获得本人的明确许可并约定使用范围。在公司内部制定防止滥用的指南可以防患于未然。

总结

集成在 Google Vids 中的 Veo 3.1 将 AI 数字人的表现力提升到了实用水平。对口型精度、表情自然度、构图稳定性,这些都已达到足以在商务场景中通用的质量。

通过降低“制作视频”的门槛,传达信息的方式将变得更加多样。文本、图片、以及视频。通过发挥各自的专长,可以实现更有效的沟通。

首先,不妨访问 Google Vids,尝试一下全新的“数字人”功能吧。写下脚本,选择数字人,按下播放键。从这简单的一步开始,全新的视频制作世界将拉开帷幕。