
在现时的 AI Research 波涛中江苏配资炒股资讯平台-股票配资学习资源汇总,Autonomous Agents 仍是编削了咱们取得信息的花样——从被迫接管到主动检索。
磋商词,现存的 Agent 似乎皆有一个共同的处理盲区:视频。

视频是互联网上信息密度最高的模态。但现存的 AI 要么是阅读领悟高东说念主(处理文本),要么只可盯着被喂到嘴边的一小段视频片断作念问答。
真确的 Agentic Video Browsing 应该是什么样的?
它应该像东说念主类相似:在海量视频中主动搜索,通过标题筛选,快速拖动进程条定位,临了只在环节技巧"全神灌注"地不雅看细节。
基于这个理念,酌量团队冷落了Video-Browser,并构建了全新的基准测试Video-BrowseComp。

为什么当今的 Agent "看"不好视频?
在敞开寰球的视频搜索中,现存的关节濒临着一个两难的窘境(Modality Gap vs. Context Explosion):
1. 成功视觉推理(Direct Visual Inference,e.g.,RAG):简便顽皮地把视频帧流喂给 MLLM。服从好,但贵到离谱。长视频会导致 Context 遽然爆炸,不仅推理慢,还受限于陡立文窗口。
2. 文本撮要(Summarization):先把视频转成文本撮要,再让 Agent 读文本。省钱了,但细节丢了。许多视觉细节(如"那只笔是什么神采的?")无法被通用的文本撮要捕捉。
咱们需要一种既能像文本搜索相似高效,又能像视觉推理相似精确的新范式。
关节:Video-Browser 与 Pyramidal Perception
为了贬责上述问题,酌量团队冷落了一种名为Pyramidal Perception(金字塔感知)的架构。
正如其名,酌量团队将视频处理经过看作一个金字塔,由底进取,层层递进,磋酌量逐级加多,但处理的数据量逐级减少。

通盘Video-Browser Agent包含三个中枢组件:Planner(筹办器)、Watcher(不雅察者)和 Analyst(分析师)。
其中最中枢的 Watcher 罗致了三层金字塔机制:
Stage I: Semantic Filter(语义过滤 - 塔底)
面对海量的搜索适度,不需要大开每一个视频。Agent 领先愚弄 LLM 分析视频的元数据(标题、简介等),以"零视觉资本"快速剔除无关推行,只保留最有但愿的候选者。
Stage II: Sparse Localization(零碎定位 - 塔身)
关于入选的视频,不需要重新看到尾。Agent 结合全量字幕和零碎采样帧,快速扫描视频结构,定位出可能包含谜底的时辰窗口(Temporal Proposals)。
Stage III: Zoom-in(聚焦精读 - 塔尖)
这是最环节的一步。在锁定的极短时辰窗口内,进行高帧率解码,调用庞大的 MLLM 进行高超的视觉推理。将最腾贵的磋商资源,只花在最有价值的几秒钟上。
基准测试:Video-BrowseComp
为了考证 Agent 的能力,酌量团队发现现存的 video benchmark 时时堕入了被迫感知的误区:给模子一段剪好的视频,问它内部发生了什么。
但这并不是真是的 Agent。在真是寰球中,Agent 不会有东说念主把视频喂到嘴边,它们必须像东说念主类相似,在敞开的互联网海洋中主动寻找足迹。为了估量这种真确的 Agentic 能力,酌量团队构建了 Video-BrowseComp。"
这是一个条款 Agent 必须具备 Mandatory Video Dependency(强制视频依赖)的基准测试。其策动原则是:" Hard-to-Find,Easy-to-Verify "。
酌量团队策动了三个难度等第:
Level 1 (显式检索):有明确的环节词,检修定位能力。
Level 2 (隐式检索):莫得成功环节词,需法子悟形容并进行推理。
Level 3 (多源推理):最难级别。谜底散播在多个视频中,需要 Agent 像考查相似勉强足迹。

实验适度:更准,更省
酌量团队在 Video-BrowseComp 上对比了 GPT-5.2,Gemini-1.5-Pro 等 SOTA 模子(包括 Search-Augmented 版块)。适度显现:
性能晋升:Video-Browser (基于 GPT-5.2)达到了 26.19% 的准确率,比较成功视觉推理基线晋升了 37.5%。
服从飞跃:收成于金字塔感知,酌量团队的 Token 破费裁汰了 58.3%。
龙套 Deep Research 控制:酌量团队的关节在视频任务上以致优于 OpenAI 的 o4-mini-deep-research,解释了在视频领域,高效的视觉感知战略的优异性。

Case Study:耳闻不如目见
来看一个经典的例子(Benchmark Level 3):
问题:在电影《白昼梦思家》中,主角 Walter Mitty 胸口口袋里有一支笔结合全片,笔盖的出现示意了他内心的渴慕。指示这支笔是什么神采的?

❌成功视觉推理(Direct Visual Inference):看了统统帧,但由于信息过载,模子宣称"没看到笔" 。
❌文本撮要(Summarization):通过将电影转成文本,但文本中莫得提到"笔的神采"这种细节,模子恢复"未说起" 。
✅ Video-Browser (Ours):奏效定位到特写镜头,Zoom-in 模式下明显识别出了红色的笔盖,恢复正确!
挂念与瞻望
Video-Browser是迈向 Agentic Open-web Video Browsing 的结巴一步。
酌量团队通过模拟东说念主类的解析经过——先浏览、再定位、后精读,奏效贬责了视频搜索中精度与资本的矛盾。
统统的代码、数据和 Benchmark 现已开源,酌量团队但愿该职责能为社区提供一个新的酌量支点。
神气主页:
https://github.com/chrisx599/Video-Browser
论文持续:
https://arxiv.org/abs/2512.23044
一键三连「点赞」「转发」「谨防心」
接待在评述区留住你的思法!
— 完 —
咱们正在招聘别称眼疾手快、关切 AI 的学术裁剪实习生 � �
感酷好酷好的小伙伴接待关切 � � 了解确定

� � 点亮星标 � �
科技前沿阐述逐日见江苏配资炒股资讯平台-股票配资学习资源汇总
江苏配资炒股资讯平台-股票配资学习资源汇总提示:本文来自互联网,不代表本网站观点。