Workflow
混合模态蒸馏
icon
搜索文档
AI在实时视频里秒“剪”出你想要的部分!输入文字/图/视频片段,它都能秒懂|ICCV2025
量子位· 2025-09-17 11:06
OVG-HQ团队 投稿 量子位 | 公众号 QbitAI 还在实时视频里找特定事件找半天?最新技术直接开挂了。 试想一下,安防监控中,几个人影短暂掠过,利用新技术可以秒级调出这段"可疑聚众"的精准片段。 △ 图片为AI生成 在VR训练场,你戴上VR眼镜练习投篮,提前在手机App输入"定位和这个视频示范 (库里完美三分片段) 相似的动作"。训练开始,每一次 出手,眼镜在后台默默分析第一视角视频流。当你做出动作、发力、弧线都神似库里的三分时,眼镜立刻就能在虚拟界面高亮标记这个片段。 △ 图片为AI生成 不卖关子,这就是来自深圳北理莫斯科大学、阿德莱德大学的研究团队提出的新任务。 名叫 混合模态在线视频定位 (Online Video Grounding with Hybrid-modal Queries, OVG-HQ) 。 用大白话说,这项技术能让系统一边直播/录像,一边根据你提供的多种"线索",包括文字、参考图、示范视频片段或组合等,瞬间在实时视频 流中找出并精准裁剪出你关心的完整事件。 论文已收录于ICCV2025。 "离线"是硬伤 :主流技术必须等视频录完才能干活,事后分析如同马后炮,无法满足安防"秒级响 ...