EgoCross 官方资源解读与进一步研究方案
1. 资源总览
本次解读基于 4 个入口:
按 2026-03-17 当前页面内容,EgoCross challenge 已经挂到 EgoVis @ CVPR 2026 下,workshop 日期为 2026-06-03 / 2026-06-04,challenge leaderboard 自 2026-02 起开放,关闭时间是 2026-05-13。
2. 官网与 Workshop 解读
2.1 EgoCross 官网在说什么
官网的定位很直接:
- 这是一个 cross-domain egocentric VQA benchmark
- 覆盖 4 个域:Surgery、Industry、Extreme Sports、Animal Perspective
- 规模是 798 clips、957 QA
- 同时支持 CloseQA 与 OpenQA
官网更像 challenge 门户,而不是文档中心。它给出的最重要信息是:
- challenge 已经作为 CVPR 2026 EgoVis Workshop 的一部分启动
- 有两个 Codabench 入口:
- Source-Limited Track
- Open-Source Track
所以如果从实验设计角度理解,官网承担的是“官方口径 + challenge 入口”的角色。
2.2 Workshop 页面透露了哪些更关键的信息
Workshop 页面比官网多出 3 类对实验更有用的信息:
-
Challenge 的任务定义
给定 novel domain 的第一视角视频和一个问题,目标是在 A/B/C/D 四个选项中选出正确答案。
-
两条赛道的约束
- Source-Limited Track:限制使用官方提供的 baseline model 和小规模 support set,强调 adaptation algorithm 的公平比较
- Open-Source Track:页面描述里写的是“对 base model 没有限制,甚至鼓励 commercial models”,并允许额外数据,只要不是专门手工构造来对齐目标域
-
当前 SOTA
两个赛道页面都写了同一个当前 SOTA:SFT-Qwen3VL,四域平均准确率 0.4608
这三个点说明目前 challenge 的官方 baseline 仍然偏弱,且“方法空间”并没有被收紧到很死,至少在非 source-limited 轨道里仍然有很大研究空间。
2.3 一个值得注意的命名漂移
几个官方/半官方页面之间存在轻微命名不一致:
- 官网 / workshop 页面叫
Open-Source Track
- Qwen3-VL-4B 训练仓库 README 里叫
Source-Free
从页面描述看,后一种说法更接近“零样本或不受 support-set 约束的更开放赛道”,但 workshop 页面实际描述又允许额外数据和 commercial models,因此更准确的理解应以 workshop 当前文字为准,而不要仅凭仓库 README 的历史命名。
3. 评测代码仓库解读
3.1 这个仓库实际提供了什么
MyUniverse0726/EgoCross 当前仓库根目录主要有:
eval_os_closedset.py
eval_gpt_closedset.py
eval_gpt_openset.py
eval_gemini_closedset.py
eval_gemini_openset.py
datasets/
可见它主要覆盖的是:
- 本地 open-source VLM 的 closed-set
- GPT / Gemini 的 closed-set + open-set
3.2 代码层面的几个明确信号
从 eval_os_closedset.py 可以看出,当前本地开源模型评测的默认思路是:
- 输入为视频或抽帧后的图片序列
- 通过固定 prompt 让模型输出 JSON:
- 最终只比较
prediction 和正确选项字母
支持的模型分支包括:
qwen25vl
qwen25vl_3b
internvl25
internvl3
videollama3
但这里已经能看出仓库存在维护漂移:
setup_model() 里仍支持 qwen2vl
parse_args() 的 choices 却没有 qwen2vl
- README 里提到
preference.py
- 仓库根目录当前并没有这个文件
eval_gpt_openset.py 依赖 chat_vlms
- 仓库根目录当前也没有这个模块
这意味着当前仓库更像“可参考的 benchmark 脚本集合”,而不是一套无缝可复现的完整评测包。
3.3 对实验设计的启发
这个评测仓库背后的默认范式其实非常朴素:
- 单轮推理
- 固定 prompt
- 直接 answer selection
这恰好说明还有很大的研究空间没有被 baseline 吃掉,特别是:
- 更强的时序采样策略
- 更强的 task-aware prompt
- domain-aware adaptation
- OpenQA 对开源模型的完整实现
3.4 一个重要现实点
README 里把 MyUniverse0726/EgoCross 写成主仓库,但同时又说真正的 “official evaluation code (leaderboard/submission)” 在 EgoCross-Benchmark/EgoCrossCodes。这说明当前你给的这个仓库更像公开版评测脚本和说明,而不是 challenge 提交后端的唯一标准实现。
因此做实验时最好区分三类东西:
- 论文 benchmark 定义
- 公开脚本仓库
- 真正 leaderboard 的提交格式与后端
不要默认三者完全等价。
4. Qwen3-VL-4B SFT 仓库解读
4.1 它的定位
LiYu0524/EgoCross_SFT_qwen3vl4b 的定位非常清楚:
- 基于
Qwen/Qwen3-VL-4B-Instruct
- 用
LLaMA-Factory 做训练
- 提供
full_sft.yaml 与 lora.yaml
- 目标是给 EgoCross challenge 提供一个可复现实验 baseline
4.2 数据与训练设定
README 里给出的 support set 统计是:
- Animal:20
- Industry:20
- XSports:20
- Surgery:20
- 合计:80 条 support samples
也就是说,这个 baseline 不是大规模训练,而是典型的小样本域适配设置。
训练配置也很标准:
- Full SFT:4 卡,
lr=1e-5,2 epochs,DeepSpeed ZeRO-2
- LoRA:单卡可跑,
rank=64,lr=2e-4
- 图像像素上限控制在
360000
4.3 它真正说明了什么
README 给出的结果是:
- Baseline:45.14
- Full SFT epoch 1:45.98
- Full SFT epoch 2:46.08
这个结果很有启发性,因为它说明:
-
SFT 是有效的,但收益很有限
只提升了不到 1 个点。
-
跨域泛化不是“补一点 support set 就自然解决”的问题
这类任务更像结构性泛化缺陷,而不是简单缺监督。
-
各域收益不均衡
README 中 Surgery 甚至略降,Animal 基本不动,说明单一统一 SFT 并没有真正解决 domain-specific difficulty。
4.4 仓库当前的边界
这个仓库当前更像“训练 baseline + 提交模板”,而不是完整研究框架:
- 有训练配置
- 有
prepare_data.py
- 有
submission_template.json
- 但没有完整的研究型 ablation 组织
- 也没有更强的 domain routing / retrieval / RL / OpenQA 方案
因此它更适合作为你做后续方法扩展的起点,而不是终点。
5. 哪些方向最值得进一步研究
下面这些方向不是泛泛而谈,而是从 challenge 规则、评测代码现状和 SFT baseline 短板直接推出来的。
5.1 Domain-Aware Routing / Adapter Routing
为什么值得做
- EgoCross 的难点本质就是 domain shift
- 当前 baseline 用一个统一模型直接回答四个域
- SFT 整体收益小,说明统一参数更新不够针对
怎么做
- 先做 domain classifier,识别输入属于 surgery / industry / xsports / animal 哪一类
- 根据域选择:
- 不同 prompt
- 不同 LoRA adapter
- 不同 frame sampler
- 不同 answer post-processor
适合赛道
- Source-Limited:可以做 support-set 驱动的 adapter routing
- Open-Source:可以进一步做 mixture-of-experts 或 router + external memory
5.2 Support-Set Retrieval Augmentation
为什么值得做
- 官方 support set 每域只有 20 条,但它们非常宝贵
- 当前 baseline 更像把 support set 当训练样本,而不是“推理时可检索知识”
怎么做
- 建立 support-set embedding index
- 按视觉相似度、问题类型、对象词汇检索相近样本
- 在推理时注入 few-shot exemplars 或 structured hints
价值
- 比统一 SFT 更符合小样本适配场景
- 对 Source-Limited track 尤其自然
5.3 Task-Type-Aware Specialization
为什么值得做
- EgoCross 明确分成 Identification / Localization / Prediction / Counting
- 这些任务的推理结构差异非常大
怎么做
- 先做 question type classifier
- 为不同 task family 设计不同的 answer protocol:
- Localization:强制 timestamp 格式
- Counting:显式“先枚举后计数”
- Prediction:显式“当前状态 -> 下一步”
- Identification:显式“候选项对比”
价值
- 这比单一 prompt 更可能提升难任务稳定性
- 特别适合 OpenQA / Localization / Prediction
5.4 Temporal Calibration 和 Timestamp Grounding
为什么值得做
- 论文里已经点出 GPT-4.1 在 animal localization 上会答成“第几帧”,而不是时间戳
- 说明当前模型对 FPS、帧号、时间轴的绑定并不稳
怎么做
- 显式注入 frame-index -> timestamp 映射
- 对定位问题使用结构化输出约束
- 在训练时加入 timestamp normalization loss 或格式奖励
价值
- 这类方法可能不会提升所有题型
- 但很可能显著提升 Localization 类问题
5.5 OpenQA for Open-Source Models
为什么值得做
- 当前公开仓库对 open-source 模型只给了
closed-set
- 开源本地模型的
open-set / openqa 路径并没有完整落地
怎么做
- 补齐本地开源模型 OpenQA evaluator
- 统一 judge 协议
- 研究 answer normalization、semantic equivalence、self-critique
价值
- 这是很明确的仓库空白点
- 既是工程贡献,也能做成论文实验点
5.6 RL / Preference Optimization for Cross-Domain QA
为什么值得做
- 原论文 pilot study 里 RL 提升明显大于 prompt 和 SFT
- 当前 Qwen3-VL baseline 只有 SFT / LoRA
怎么做
- 以 support set 或 judge model 为奖励信号
- 做 DPO / ORPO / GRPO / RLAIF 风格优化
- 奖励项不只看答对,还看:
- 格式正确
- timestamp 合法
- reasoning consistency
价值
- 这是当前 baseline 最缺的一环
- 也是最有希望超过
0.4608 的方法方向之一
5.7 Domain-Specific Knowledge Injection
为什么值得做
- Surgery 和 Industry 的困难之一是术语和工具知识
- 通用 MLLM 往往看懂大概动作,但说不准专业对象
怎么做
- 为不同域建立轻量知识库:
- surgical tools / phases
- industrial components / operations
- sports maneuvers
- animal action patterns
- 在开放赛道里做 RAG 或 concept injection
风险
- Source-Limited track 下要严格核对规则,避免越界
- Open-Source track 更适合做这类增强
5.8 Adaptive Frame Sampling / Video Token Budgeting
为什么值得做
- 当前公开脚本本质上还是固定 fps / 固定 token budget
- Extreme Sports 和 Industry 对关键帧密度更敏感
怎么做
- 按 motion / scene change / hand-object interaction 自适应抽帧
- 针对 Prediction / Localization 任务用更高时序密度
- 针对 Identification / Counting 任务用更稳的代表帧策略
价值
5.9 Multi-Stage Answering Pipeline
为什么值得做
- 当前脚本基本都是“一次性直接答”
- 但 EgoCross 的很多问题天然适合分解
怎么做
- Stage 1:识别 domain / task /关键对象
- Stage 2:做局部证据抽取
- Stage 3:输出选项或开放式答案
价值
- 更适合复杂 Prediction 和 Localization
- 可与 retrieval、routing、RL 组合
6. 我建议你优先做的 3 条线
如果你接下来要把工作做成真正的论文级实验,我建议优先按下面顺序推进:
-
Domain-aware adapter routing
成本适中,和 benchmark 本质最对齐。
-
Support-set retrieval + task-aware prompting
最贴近 source-limited 赛道,容易形成强 baseline。
-
RL / preference optimization on top of Qwen3-VL
风险更高,但潜在收益也最大。
7. 直接可落地的实验设计
实验 A:统一 SFT vs 分域 LoRA
- Baseline:当前 full SFT / LoRA
- 方法:每域单独 LoRA + 路由器
- 指标:overall、4 domains、4 task families
实验 B:support-set 检索增强
- Baseline:直接答题
- 方法:检索 top-k 支持样本后拼到上下文
- 消融:视觉检索 / 文本检索 / 联合检索
实验 C:task-aware prompt
- Baseline:统一 prompt
- 方法:对 I/L/P/C 使用不同模板
- 重点观测 Localization 与 Prediction
实验 D:RL or preference tuning
- Baseline:SFT Qwen3-VL-4B
- 方法:在 support set 或 judge reward 上做偏好优化
- 重点看是否能把平均准确率稳定推过
0.4608
8. 结论
从 2026-03-17 看到的官方资源来看,EgoCross 现在正处于一个非常适合做方法研究的阶段:
- benchmark 定义已经清楚
- challenge 已经挂到 CVPR 2026 EgoVis
- 官方 baseline 还不强
- 公开代码存在明显空白和漂移
这意味着后续真正值得做的,不是再写一版普通 SFT,而是围绕 domain adaptation、retrieval、task decomposition、temporal grounding、RL 这几个方向做系统化方法设计。