LOADING

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

2024/06/21 量子位
24

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

AIGC动态欢迎阅读

原标题:最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
关键字:缓存,注意力,全局,显存,团队
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5?
答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。
刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。
具体来说Character.ai在整个服务堆栈中实现了如下成绩:
内存高效架构设计:将KV缓存大小减少20倍以上,而不会降低质量
Attention状态缓存:95%请求无需重算
直接用in8精度量化训练:推理零损失还省显存
Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍!
众多公布的方法中,原生int8训练是最受关注的。
虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。
秘诀1:高效利用显存,attention 参数量降低20倍大模型的一大痛点是显存占用高,导致无法支持大批量推理。Attention 层中的 Key-Value(


原文链接:最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破