OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

2024/05/28 新智元

AIGC动态欢迎阅读

原标题：OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA
关键字：文本,任务,视频,模型,方法
文章来源：新智元
内容字数：19412字

内容摘要：

新智元报道编辑：LRT
【新智元导读】通过提示查询生成模块和任务感知适配器，大一统框架VimTS在不同任务间实现更好的协同作用，显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异，尤其在视频级跨域自适应方面，仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。文本端到端识别是一项从图像或视频序列中提取文本信息的任务，虽然取得了一些进展，但跨领域文本端到端识别仍然是一个难题，面临着图像到图像和图像到视频泛化等跨域自适应的挑战。图1 图(a)和图(b)是两种跨域文本端到端识别，包括图像到图像和图像到视频。TT表示TotalText，IC15代表ICDAR2015，IC13代表视频ICDAR2013。
图像级跨域文本端到端识别面临样式、字体、背景等差异挑战，模型需要具备极强的泛化能力。
不同数据集间的格式差异也是跨域文本端到端识别重要的问题，如Total-Text和ICDAR2015使用词级注释，CTW1500使用行级注释。视频级跨域文本端到端识别中，由于视频文本中存在着如遮挡、场景变化和文本快速运动等因素，现有静态图像的方法在视频环境通常表现不佳，如图2所示。图2 将静态

原文链接：OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

联系作者

文章来源：新智元
作者微信：AI_era
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

OpenI

OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

AIGC动态欢迎阅读

内容摘要：

联系作者