LOADING

今日arXiv最热大模型论文:13位作者,200篇文献,腾讯最新综述高效多模态大模型:性能要强,规模要小

2024/05/31 夕小瑶科技说
29

今日arXiv最热大模型论文:13位作者,200篇文献,腾讯最新综述高效多模态大模型:性能要强,规模要小

AIGC动态欢迎阅读

原标题:今日arXiv最热大模型论文:13位作者,200篇文献,腾讯最新综述高效多模态大模型:性能要强,规模要小
关键字:模型,高效,视觉,腾讯,图像
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 谢年年在过去一年里,多模态大语言模型(MLLMs)在视觉问答、视觉理解和推理等任务中展现了卓越性能。OpenAIGPT-4V和Google的Gemini的惊人表现拉高了人们对MLLMs的期待。
他们的成功很大程度归功于scaling law,即投入的数据、计算能力或模型越大,模型的性能就越强。
然而,就像一台重型机器需要巨大的能源支持和高昂的“维护费”,庞大的模型规模和高昂的训练与推理成本限制了MLLMs在学术界和工业界的广泛应用,更别说在边缘设备上运行。
据计算,训练MiniGPT-v2在使用NVIDIA A100 GPU的情况下也需要超过800个小时。除此之外,推理过程的资源消耗也是个大头。以一个典型场景为例,当模型输入为336×336像素的图像和40个token的文本提示时,使用LLaVA-1.5和Vicuna-13B LLM核心进行推理,这个过程需要高达18.2万亿次的浮点运算(FLOPS)和41.6GB的内存。
这促使学者不得不开始研究如何降低MLLM的资源消耗,使其能在更广泛的场景下得到应用,同时还要尽量保持其高性能,也就是高效轻量级的MLLM


原文链接:今日arXiv最热大模型论文:13位作者,200篇文献,腾讯最新综述高效多模态大模型:性能要强,规模要小

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189