LTX-2正式发布:开源“Veo 3”可生成20秒4K AI视频,音画同步,本地显卡即可运行

AI 视频生成领域实现重大跨越!Lightricks 团队正式将 LTX-2 模型开源,该模型堪称首个真正意义上的完整开源音视频基础模型,能够一次性生成时长最长 20 秒的 4K 高清视频,且能达成画面、声音、口型、环境音以及音乐的完美匹配。AIbase 编辑团队紧跟网络最新动态,为您呈上全方位解读。
开源盛宴:权重代码全开放,社区嗨翻天
LTX-2 模型的权重、完整训练代码、基准测试数据以及工具包均已全面开源,并托管在 GitHub 和 Hugging Face 平台。开发者们可以自由查看、微调模型,还能在本地进行部署。此模型基于 DiT 混合架构打造,具备文本到视频、图像到视频的生成能力,支持多关键帧控制、3D 相机逻辑以及 LoRA 微调。最新消息显示,ComfyUI 在发布当天(Day0)就原生支持 LTX-2,提供了现成的工作流程,大大降低了上手难度。经过针对 NVIDIA RTX 消费级显卡的优化,生成效率显著提升,普通用户无需企业级硬件,就能体验到专业级的输出效果。
核心优势:音视频一体,同步生成无需后期
与传统模型需要单独拼接音频不同,LTX-2 在单一流程中就能同时生成视觉和声音内容,确保动作、对白、环境音效与音乐自然协调。该模型支持原生 4K 分辨率,最高帧率可达 50fps,能够生成最长 20 秒的连续视频片段。实际测试表明,口型同步和表情表现十分出色,人物对话场景高度逼真。同时,模型在面对复杂提示时,也能保持较高的一致性,皮肤质感和运动流畅度明显优于多数开源竞品。其输入模式灵活多样,可基于文字、图片或草图驱动生成视频,适用于短片、广告以及内容创作等多个领域。
性能提升:速度提升、资源节约、本地运行便捷
与前代模型以及部分竞品相比,LTX-2 的计算成本最高可降低 50%,并且支持多 GPU 推理栈进行长序列扩展。量化版本进一步降低了显存需求,能够在 RTX40 系列及以上显卡上流畅运行。社区反馈显示,生成 10 – 20 秒的视频仅需数分钟,甚至实现实时预览也并非不可能。这标志着高端 AI 视频生成从云端封闭模式迈向本地开源民主化,极大地降低了创作者的门槛。
应用前景广阔:个人创作与专业制作皆适用
LTX-2 已在内容创作、动画制作、营销推广以及影视预演等领域展现出强大的潜力。它支持 Canny、Depth 和 Pose 等视频到视频控制方式,结合关键帧驱动,能够实现精确的叙事和风格统一。未来,随着社区 LoRA 和插件的不断扩展,该模型有望成为开源 AI 视频生态的核心驱动力,推动从短视频到长形式内容的创新发展。
以上关于LTX-2正式发布:开源“Veo 3”可生成20秒4K AI视频,音画同步,本地显卡即可运行的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » LTX-2正式发布:开源“Veo 3”可生成20秒4K AI视频,音画同步,本地显卡即可运行
微信
支付宝