Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

2024/06/07 机器之心

AIGC动态欢迎阅读

原标题：Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想
关键字：模型,编码器,特征,人工智能,神经网络
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：小舟、泽南、大盘鸡大模型也可解释了？
大模型都在想什么？OpenAI 找到了一种办法，能给 GPT-4 做「扫描」，告诉你 AI 的思路，而且还把这种方法开源了。大语言模型（LLM）是当前 AI 领域最热门的探索方向，吸引了大量的关注和研究投入。它们强大的语言理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们见证了大模型迭代后性能上的显著提升，但我们目前对模型中的神经活动仍然只是一知半解。
本周四，OpenAI 分享了一种查找大量「特征」的全新方法 —— 或许这会成为可解释的一种可用方向。OpenAI 表示，新方法比此前的一些思路更具可扩展性，研究团队使用它们在 GPT-4 中找到了 1600 万个特征。
有趣的是，从作者列表中，我们发现已经从 OpenAI 离职的 Ilya Sutskever、Jan Leike 等人也是作者之一。可谓是一项重要的研究。
论文标题：Scaling and evaluating sparse autoencoders
论文地址：https://cdn.openai.com/papers/sparse-autoencoder

原文链接：Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

联系作者

文章来源：机器之心
作者微信：almosthuman2014
作者简介：专业的人工智能媒体和产业服务平台

OpenI

Ilya参与，OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

AIGC动态欢迎阅读

内容摘要：

联系作者