LOADING

清华大学教授黄民烈:如何把大模型“调教”成我们放心的样子

2024/06/15 AI前线
20

清华大学教授黄民烈:如何把大模型“调教”成我们放心的样子

AIGC动态欢迎阅读

原标题:清华大学教授黄民烈:如何把大模型“调教”成我们放心的样子
关键字:模型,字节跳动,华为,小米,智能
文章来源:AI前线
内容字数:0字

内容摘要:


作者 | 褚杏娟
OpenAI 安全团队与公司高层的矛盾由来已久,随着首席科学家 Ilya Sutskever 的离职,大模型的安全问题再次成为舆论中心。业内对大模型的安全问题也形成了两派:一派以杨立昆为代表,他们认为对于安全的紧迫感是过度夸张,另一派则是像 Ilya 等人,坚决认为安全问题刻不容缓。
当我们把视线聚焦到国内,国内对大模型安全问题的容忍度其实更低,当然基于文化不通,对于大模型的监管的侧重点也不同。在 6 月 6 日的 CCF 大模型论坛上,清华大学长聘教授黄民烈介绍了自己正在做的研究课题,几乎都是围绕大模型安全问题。
黄民烈教授表示,超级对齐(Superalignment)不仅是安全,本质上应该是怎么样实现自我进化、自我迭代的学习过程,安全问题只是超级对齐的一个外显性质。
超级对齐技术如今面临着挑战,比如处理不准确的奖励模型和弱标签分类问题等。在现有体系里,不可能一下子就把超级对齐系统做出来,但要从解决小的问题开始,才能逐步实现这样的能力。
黄民烈教授介绍道,目前在超级对齐框架下,其研究团队做了精确对齐算法 EXO,确保在理论上有精准的对齐效果。针对大模型攻击,团队做


原文链接:清华大学教授黄民烈:如何把大模型“调教”成我们放心的样子

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。