谷歌加倍投入人工智能：Veo 3、Imagen 4 和 Gemini Diffusion 拓展创意边界

币界网 2025-05-22 0

谷歌加倍投入人工智能：Veo 3、Imagen 4 和 Gemini Diffusion 拓展创意边界

谷歌加倍投入人工智能：Veo 3、Imagen 4 和 Gemini Diffusion 拓展创意边界

币界网报道：

谷歌 I/O 2025 大会从来都不是那种精打细算的大会。今年，该公司放弃了渐进式的策略，推出了一系列生成式 AI 升级，旨在重塑搜索、视频和数字创意的格局。

关键在于：谷歌的下一代模型系列 Gemini，现在为从搜索结果到视频合成和高分辨率图像创建等一切事物提供支持——在日益由人工智能生成速度和原生程度决定的竞赛中开辟了新的领域。

最精彩的是Veo 3谷歌首款 AI 视频生成器，不仅能生成视觉效果，还能生成完整的音轨——环境噪音、特效，甚至对话——并与素材直接同步。输入文字和图片提示，即可生成完整的 4K 视频。

这是第一个能够同时生成音频和视觉效果的大规模视频模型——这一趋势始于节目主持人阿尔法，一款未发布的型号，但 Veo3 提供了更多的功能，可以生成超越简单 2D 卡通动画的各种风格。

谷歌实验室副总裁乔希·伍德沃德 (Josh Woodward) 在发布会上表示：“我们正在进入一个融合音频和视频生成的全新创作时代。” 这对目前视频生成领域的领导者——Kling、Hunyuan、Luma、Wan 以及 OpenAI 的 Sora——构成了直接挑战，这些公司将 Veo 定位为一体化解决方案，而非需要多种工具。

除了 Veo3 之外，Imagen 4（谷歌图像生成器模型的最新版本）还具有增强的照片真实感、2K 分辨率，或许最重要的是，它还具有适用于标牌、产品和数字模型的文本渲染功能。

对于那些曾经遭受过之前的 AI 图像模型所创建的乱码文本的人来说，Imagen 4 代表着一个重大的改进。

这些工具并非孤立存在。Flow AI 是一项面向专业用户的全新订阅功能，它将 Veo、Imagen 和 Gemini 的语言功能整合到一个统一的电影制作和场景编辑环境中。但这种整合需要付费——在促销期内，每月需支付 125 美元才能使用完整的工具包，直至 250 美元的全价开始收费。

Gemini：助力搜索和“文本传播”

生成式人工智能并非只适用于内容创作者。Gemini 2.5 现已成为该公司重新设计的搜索引擎的支柱，谷歌希望将其从链接聚合器发展成为一个动态的对话界面，能够处理复杂的查询并提供综合的多源答案。

AI 概览（Google Gemini 尝试为查询提供全面的答案，而无需用户点击其他网站）现在位于搜索页面的顶部，据 Google 报告，每月用户超过 15 亿。

另一个有趣的开发项目是“Gemini Diffusion”，它采用了由初始实验室几个月前。直到最近，人工智能界普遍认为自回归技术最适合文本生成，而扩散技术则更适合图像生成。

自回归模型在读取所有先前的代数之后生成每个新标记，以确定最佳的下一个标记——非常适合通过不断审查提示和先前的输出来制作连贯的文本响应。

扩散技术的运作方式不同，它首先用随机信息填充所有上下文，然后每一步细化（扩散）输出，使最终产品与提示相匹配——非常适合具有固定画布和美感的图像。

OpenAI 首次成功将自回归生成应用于图像模型，而如今，谷歌已成为首家将扩散生成应用于文本的大型公司。这意味着该模型从无意义的内容开始，并在每次迭代中完善整个输出，每秒生成数千个标记，同时保持准确性——例如，Groq（不是 xAI 的 Grok）是世界上最快的推理提供商之一，每秒生成近 275 个标记，而 OpenAI 或 Anthropic 等传统提供商的速度都无法接近这一速度。

然而，该模型尚未公开发布——感兴趣的用户必须加入候补名单—但早期采用者分享了令人印象深刻的结果，展示了该模型的速度和精度。

亲身体验 Google 的 AI 工具

我们尝试了 Google 的几项新 AI 功能，根据层级不同，结果也有所不同。

深度研究功能极其强大，甚至超越了 ChatGPT 的替代方案。这款综合研究代理评估了数百个来源，并以极低的错误率提供可靠的信息。

它比 OpenAI 的研究代理更具优势，因为它能够生成信息图表。在生成完整的研究文本后，它可以将这些信息浓缩成视觉上引人入胜的幻灯片。我们向模型输入了有关谷歌最新公告的所有内容，它通过图表、方案、图形和思维导图等方式呈现了准确的信息。

Veo 3 仍为 Gemini 极端主义者用户专属，不过一些第三方提供商（例如 Freepik 和 Fal.ai）已提供 API 访问权限。除非您购买 Ultra 套餐，否则无法试用 Flow。

Flow 是一款直观的视频编辑器，以 Veo 的模型为核心，用户可以使用简单的文本提示来编辑、剪切、扩展和修改 AI 场景。

然而，即使是 Veo2 也得到了一些关注，这让专业版用户的工作更加轻松。如今 Veo2 的运行速度显著提升——我们用大约 30 秒的时间制作了 8 秒的视频。虽然 Veo2 缺乏声音，目前仅支持文本转视频（图片转视频功能即将推出），但它能够理解我们的提示，甚至生成连贯的文本。

Veo2 的性能已与 Kling 2.0 相媲美——后者被广泛认为是生成视频行业的质量标杆。搭载 Veo3 的新一代产品看起来更加逼真、连贯，背景音效出色，对话和声音也栩栩如生。

对于 Imagen，乍一看很难判断 Google 在其 Gemini 聊天机器人界面上是采用了版本 4 还是仍在使用版本 3，不过用户可以通过 Whisk 进行确认。我们的初步测试表明，除非另有说明，Imagen 4 更注重真实感，其即时响应速度更快，视觉效果也超越了其前代产品。

我们生成了一张包含不同元素的图像，这些元素通常不会在同一场景中组合在一起。我们的主题是“照片中，一位皮肤由玻璃制成的女性，周围环绕着成千上万的闪闪发光的飘渺碎片，身处一间巴洛克风格的房间，霓虹灯上写着‘解密’，非常逼真。”

尽管 Imagen 3 和 Imagen 4 都理解了概念和要素，但 Imagen 3 未能捕捉到逼真的风格——而 Imagen 4 却轻松做到了。总体而言，Imagen 4 与 SOTA 图像生成器相当，尤其是考虑到它易于提示。

音频概览也得到了改进，现在模型可以轻松地在 Gemini 上提供超过 20 分钟的完整辩论，而无需用户切换到笔记本LM。这使得 Gemini 拥有更完善的界面，减少了用户之前在不同网站之间跳转获取各种服务的碎片化现象。

质量可与NotebookLM，平均输出略长。然而，关键特性并非在于模型本身更优秀，而是它现在已嵌入到 Gemini 的聊天机器人 UI 中。

高价位的优质人工智能

谷歌并没有隐藏其盈利策略。该公司的“Ultra该计划每月收费 250 美元，包含优先使用最强大的模型、Flow AI 工具和 30TB 的存储空间——目标客户显然是电影制作人、严肃的创作者和企业。20 美元的“AI Pro”套餐可解锁谷歌之前的 Veo2 模型，以及面向更广泛用户群的图像和生产力功能。基础生成工具（例如简单的 Gemini Live 和图像创建）仍然免费，但受到代币上限和每月仅 10 次研究等限制。

这种分层方法反映了更广泛的人工智能市场趋势：用免费产品推动大规模采用，然后用实用功能牢牢抓住专业人士。谷歌押注的是，真正的行动（和利润）在于高端创意工作和自动化企业工作流程，而不仅仅是随意的提示和模因生成.

编辑安德鲁·海沃德

本文地址：https://pancha.top/article/2874.html

标签：