快手可灵AI全系模型进入2.0时代上线多模态视频编辑功能

0次浏览发布时间：2025-04-15 20:41:00

中国日报4月15日电（记者樊菲菲）4月15日，快手高级副总裁、社区科学线负责人盖坤宣布，可灵AI基座模型再次升级，可灵2.0视频生成模型及可图2.0图像生成模型正式发布。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度，保持全球领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。

数据显示，自去年6月发布以来，可灵AI已累计完成超20次迭代，截至目前，可灵AI全球用户规模已突破2200万，累计生成1.68亿个视频及3.44亿张图片素材。自去年6月上线至今的10个月时间里，可灵AI的月活用户数量增长25倍。来自世界各地的超1.5万开发者和企业客户，将可灵的API应用于不同的行业场景中。

盖坤认为，AI在辅助创意表达上拥有巨大潜力，但当前的行业发展现状还远远无法满足用户需求，在AI生成内容的稳定性、以及用户复杂创意的精确传达上仍有“很多挑战”。也因此，要真正实现“用AI讲好每一个故事”的愿景，必须对基模型能力进行全方位提升，定义人和AI交互的“全新语言”。

一直以来，可灵AI致力于提升模型基础质量，增强画质清晰度，并引入更多创新功能，以满足用户多样化需求。盖坤表示，可灵希望让每个人都能用AI讲出好故事，实现更加精准的复杂创意表达。

在本次2.0模型的迭代中，可灵AI正式发布AI视频生成的全新交互理念Multi-modal Visual Language（MVL），让用户能够结合图像参考、视频片段等多模态信息，将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意，直接高效地传达给AI。

盖坤指出，MVL由TXT（Pure Text，语义骨架）和MMW（Multi-modal-document as a Word，多模态描述子）组成，能从视频生成设定的基础方向以及精细控制这两个层面，精准实现AI创作者们的创意表达。他表示，MMW（多模态描述子）将不只局限于图片和视频，也可以引入其它模态的信息，例如声音、运动轨迹等，让用户实现更加丰富的表达。

基于MVL这一全新交互方式，快手副总裁、可灵AI负责人张迪发布了全新的可灵2.0大师版，在语义响应、动态质量、画面美学等方面显著提升生成效果。据介绍，可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力，上线全新的多模态视频编辑功能，能灵活理解用户意图，支持对视频内容实现增、删、改。

据了解，当前视频生成主要分文生视频和图生视频两种，张迪披露，当前，图生视频约占到可灵AI视频创作量的85%，图片质量也对视频的生成效果产生重要作用。

面向未来，盖坤表示，可灵AI将持续大力推动技术创新，用人与AI交互的全新语言，帮助用户实现复杂创意的精确表达，“我们的初心，是让每个人都能用AI讲出好的故事，我们也真切地希望这一天更快到来”。

来源：中国日报网

本文分类：实时讯息
本文标签：视频创意模型用户坤表快手多模语义
浏览次数：0 次浏览
发布日期：2025-04-15 20:41:00
本文链接：https://www.mhbk.net/news/a8LDvW1A6B.html

快手可灵AI全系模型进入2.0时代上线多模态视频编辑功能

相关文章

热门文章

最新文章

快手可灵AI全系模型进入2.0时代 上线多模态视频编辑功能

相关文章

热门文章

最新文章

快手可灵AI全系模型进入2.0时代上线多模态视频编辑功能