百度蒸汽机，盯上长视频生成实时交互

(资料图)

AI视频生成模型的进化与竞争，终局尚远。

“多模态这块的竞争仍然焦灼。大家在技术上都没有绝对优势，或许有短期优势，但能领先一两年的这种长期优势，是不太现实的。现在比的，就是执行力，要快。”百度商业研发首席架构师李双龙向《21CBR》记者表示。

近期，Open AI发布最新多模态视频生成模型Sora 2，国内一众AI视频玩家，亦频频更新动态。

10月15日，百度旗下视频生成模型，百度蒸汽机（文心专精）再次升级，这一次的重点，放在了交互体验上。

百度称，蒸汽机模型实现实时交互生成AI长视频，突破传统10秒左右的时长限制。

具体而言，用户上传一张图片+一段提示词，即可启动视频生成流程，并能实时预览模型推理全部内容。在生成过程中，用户可随时暂停、或在任意节点修改提示词，实现对视频剧情、画面、转场的实时控制，全程干预。

为延长视频时长，业内普遍采用的是“首尾帧续写”技术，或者视频延长的简单续写能力，虽能填补时长空白，但易导致视频缺乏连贯性。

“创作是个反复思考、反复修改的过程。我们提供可交互、可编辑的支持能力，目的也在于更好地顺应创作者需求。”

李双龙向《21CBR》记者提到，实现这一点，有很多技术挑战，蒸汽机团队升级改造基础架构，引入自回归扩散模型（Autoregressive Diffusion Models），同时着手消除训推偏差、优化一致性等。

自7月蒸汽机模型发布至今，其基本保持按月重大更新的迭代频率。百度商业体系商业研发总经理刘林透露，百度蒸汽机的APP，正在规划之中。

关键词：财经频道财经资讯

[责任编辑：L075]

相关新闻