xiaomu 自媒体 2025-12-01

字节跳动“震动级”Vidi2 AI模型来袭：120亿参数，开启视频编辑全自动新时代！

AI 概述

字节跳动发布多模态大语言模型 Vidi2，有120亿参数，专用于视频理解。其关键突破是新增精细时空定位（STG）功能，技术上用 Gemma-3 作主干网络，有自适应标记压缩技术。该模型在行业基准测试中表现卓越，超长视频理解优势明显。基于其能力开发出多个自动化编辑工具，已应用于 TikTok。Vidi2 凭自身及字节跳动数据平台优势，给原生 AI 公司带来挑战，目前处于研究阶段，Demo 即将发布。

文章目录隐藏

突破:精细时空定位（STG）
性能领跑:超长视频理解优势明显
从模型到产品:TikTok 的“智能剪辑师”

字节跳动刚刚发布了其最新的多模态大语言模型 Vidi2，一个拥有 120 亿参数、专用于视频理解的 AI 模型。该模型能够处理数小时长的原始素材，理解其中的故事脉络，并根据简单提示生成完整的 TikTok 短视频或电影片段，被视为对现有视频编辑行业的重大颠覆。

突破:精细时空定位（STG）

Vidi2 的关键在于其视频理解能力。新模型新增了精细的时空定位（STG）功能，能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询，Vidi2 不仅能找到对应的时间段，还能在这些时间范围内准确标记出具体物体的位置。

在技术细节上:

时空定位:模型返回“管道”（时间索引边界框），以一秒粒度跟踪指定对象和人物，直接支持编辑，例如在人群中跟踪特定人物。
技术架构:Vidi2 升级使用 Gemma-3 作为主干网络，并辅以重新设计的自适应标记压缩技术，确保在处理长视频时保持效率而不丢失关键细节。

性能领跑:超长视频理解优势明显

Vidi2 在行业基准测试中表现卓越。在用于开放式时间检索的 VUE-TR-V2 基准上，其总体 IoU 达到 48.75，尤其在**超长视频（超过 1 小时）**上的表现比商业模型领先 17.5 个百分点。在定位任务（VUE-STG）上，模型也取得了 vIoU32.57 和 tIoU53.19 的最佳性能。

从模型到产品:TikTok 的“智能剪辑师”

基于 Vidi2 的强大能力，字节跳动已开发出多个实用的自动化编辑工具，包括:高光提取、故事感知剪切、内容感知重构图和多视角切换，且这些功能都可以在消费级硬件上运行。

TikTok 应用:相关技术已应用于 TikTok 的 Smart Split 功能，能够自动剪辑、重构图、添加字幕，并将长视频转录成适合 TikTok 的短片段。
AI Outline:该工具能将简单提示或热门话题转化为结构化的视频标题、开头和大纲。

AIbase 评论指出，Vidi2 的发布和字节跳动巨大的 **TikTok（10 亿日活用户）**数据平台优势，使其获得了海量视频数据进行训练和实时反馈优化，为原生的 AI 公司带来了巨大挑战。随着大平台公司的技术飞轮转动起来，传统 AI 公司可能面临更大的竞争压力。

目前 Vidi2 仍处于研究阶段，官方表示 Demo 即将发布。

以上关于字节跳动“震动级”Vidi2 AI模型来袭：120亿参数，开启视频编辑全自动新时代！的文章就介绍到这了，更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章，希望大家以后多多支持码云笔记。

「点点赞赏，手留余香」

赞 0 赏

给作者打赏，鼓励TA抓紧创作！

微信

支付宝

还没有人赞赏，快来当第一个赞赏的人吧！

AI模型视频剪辑

声明：本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符，请将相关资料发送至 admin@mybj123.com 进行投诉反馈，一经查实，立即处理！
重要：如软件存在付费、会员、充值等，均属软件开发者或所属公司行为，与本站无关，网友需自行判断
码云笔记 » 字节跳动“震动级”Vidi2 AI模型来袭：120亿参数，开启视频编辑全自动新时代！