(资料图)
AI视频生成模型的进化与竞争,终局尚远。
“多模态这块的竞争仍然焦灼。大家在技术上都没有绝对优势,或许有短期优势,但能领先一两年的这种长期优势,是不太现实的。现在比的,就是执行力,要快。”百度商业研发首席架构师李双龙向《21CBR》记者表示。
近期,Open AI发布最新多模态视频生成模型Sora 2,国内一众AI视频玩家,亦频频更新动态。
10月15日,百度旗下视频生成模型,百度蒸汽机(文心专精)再次升级,这一次的重点,放在了交互体验上。
百度称,蒸汽机模型实现实时交互生成AI长视频,突破传统10秒左右的时长限制。
具体而言,用户上传一张图片+一段提示词,即可启动视频生成流程,并能实时预览模型推理全部内容。在生成过程中,用户可随时暂停、或在任意节点修改提示词,实现对视频剧情、画面、转场的实时控制,全程干预。
为延长视频时长,业内普遍采用的是“首尾帧续写”技术,或者视频延长的简单续写能力,虽能填补时长空白,但易导致视频缺乏连贯性。
“创作是个反复思考、反复修改的过程。我们提供可交互、可编辑的支持能力,目的也在于更好地顺应创作者需求。”
李双龙向《21CBR》记者提到,实现这一点,有很多技术挑战,蒸汽机团队升级改造基础架构,引入自回归扩散模型(Autoregressive Diffusion Models),同时着手消除训推偏差、优化一致性等。
自7月蒸汽机模型发布至今,其基本保持按月重大更新的迭代频率。百度商业体系商业研发总经理刘林透露,百度蒸汽机的APP,正在规划之中。
Copyright © 1999-2020 www.lutounet.com ll Rights Reserved 路透中文网 版权所有 ICP备110117号-1 联系邮箱:85 53 591@qq.com