LOADING

GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难

2024/06/21 量子位
24

GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难

AIGC动态欢迎阅读

原标题:GPT-4o差点没及格!首个多任务视频评测基准,它有亿点难
关键字:视频,任务,细节,问题,模型
文章来源:量子位
内容字数:0字

内容摘要:


MLVU团队 投稿量子位 | 公众号 QbitAI难度大升级的多任务长视频理解评测基准MLVU来了!
由智源联合北邮、北大和浙大等多所高校推出。
究竟有多难呢?最终排名第一的GPT-4o单选正确率还不足65%。
而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。
研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。
目前相关论文及数据集已公开,具体细节下面一起看看吧~
MLVU的构建过程当前流行的Video Benchmark主要针对短视频设计,大部分视频的长度都在1分钟以内。
且现有评测基准往往专注在特定领域的视频(例如电影、第一视角)和特定的视频评测任务(例如Captioning,Temporal Perception,Action Understanding)。
此外,现有部分长视频理解评测任务往往只和局部帧有关,或者针对经典电影进行问答,这导致MLLMs可以直接凭借text prompt正确回答而无需对视频进行分析。
针对以上不足,新基准MLVU从以下3个层面进行构建:
时长和来源更丰富MLV


原文链接:GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破