LOADING

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

2024/05/28 新智元
19

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

AIGC动态欢迎阅读

原标题:OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA
关键字:文本,任务,视频,模型,方法
文章来源:新智元
内容字数:19412字

内容摘要:


新智元报道编辑:LRT
【新智元导读】通过提示查询生成模块和任务感知适配器,大一统框架VimTS在不同任务间实现更好的协同作用,显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异,尤其在视频级跨域自适应方面,仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。文本端到端识别是一项从图像或视频序列中提取文本信息的任务,虽然取得了一些进展,但跨领域文本端到端识别仍然是一个难题,面临着图像到图像和图像到视频泛化等跨域自适应的挑战。图1 图(a)和图(b)是两种跨域文本端到端识别,包括图像到图像和图像到视频。TT表示TotalText,IC15代表ICDAR2015,IC13代表视频ICDAR2013。
图像级跨域文本端到端识别面临样式、字体、背景等差异挑战,模型需要具备极强的泛化能力。
不同数据集间的格式差异也是跨域文本端到端识别重要的问题,如Total-Text和ICDAR2015使用词级注释,CTW1500使用行级注释。视频级跨域文本端到端识别中,由于视频文本中存在着如遮挡、场景变化和文本快速运动等因素,现有静态图像的方法在视频环境通常表现不佳,如图2所示。图2 将静态


原文链接:OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。