首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

2024/06/06 新智元

AIGC动态欢迎阅读

原标题：首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升
关键字：模型,性能,数据,解释性,准确率
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】CRATE-α是一种新型Transformer架构变体，通过设计改进提升了模型的可扩展性、性能和可解释性，CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型，其性能会随着模型和数据集规模扩大而继续提升。在过去的几年里，Transformer架构在自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习中取得了显著的成就，几乎成为了AI领域的主导技术。
然而，虽然Transformer架构及其众多变体在实践中取得了巨大成功，但其设计大多是基于经验的，并没有严格的数学解释，也在一定程度上限制了研究人员的思路，无法开发出更高效、更具可解释性的Transformer新变体。
为了填补这一空白，马毅教授团队曾发布过白盒Transformer模型CRATE，其架构的每一层都是通过数学推导得到的，可以完全解释为展开的梯度下降迭代；此外，CRATE学习到的模型和特征在语义上也比传统的Transformer模型具有更好的可解释性，例如，即使模型仅在分类任务上进行训练，可视化图像的特征也能自然地形成该图像的零样本分割

原文链接：首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

联系作者

文章来源：新智元
作者微信：AI_era
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

OpenI

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

AIGC动态欢迎阅读

内容摘要：

联系作者