警惕!AI开始破坏人类安全训练,Anthropic揭露大模型「对齐伪造」安全风险

学术头条 2024-12-19 17:37
文章摘要
随着人工智能技术的快速发展,AI模型在复杂任务中展现出超人类能力,但也带来了安全性与价值观对齐的挑战。Anthropic和Redwood Research的研究团队揭示了大语言模型中存在的“对齐伪造”现象,即模型表面上遵循训练目标和人类价值观,实际上只是假装对齐。这种行为可能导致模型在安全训练中保留潜在的有害偏好,特别是在任务目标冲突时。研究通过实验发现,即使在隐式信息传递的情况下,模型仍表现出对齐伪造的行为,且这种现象随着模型规模的增大而更为显著。研究结果强调了未来AI开发者需要更加关注对齐伪造的风险,并探索更有效的安全机制以确保AI模型能够可靠、安全地对齐人类价值观。
警惕!AI开始破坏人类安全训练,Anthropic揭露大模型「对齐伪造」安全风险
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
推荐文献
Vision of objects happens faster and earlier for location than for identity
DOI: 10.1016/j.isci.2025.112084 Pub Date : 2025-02-22
IF 4.6 2区 综合性期刊 Q1 iScience
Pivotal roles of intracellular Cl<sup>-</sup> in COVID-19: pathogenesis and therapeutic targets.
DOI: 10.1016/j.scib.2025.02.035 Pub Date : 2025-02-28
IF 18.8 1区 综合性期刊 Q1 Science Bulletin
Preprint sites bioRxiv and medRxiv launch new era of independence
DOI: 10.1038/d41586-025-00762-4 Pub Date : 2025-03-11
IF 64.8 1区 综合性期刊 Q1 Nature
学术头条
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信