朋友,既然来了,加入我们的大家庭呗~
您需要 登录 才可以下载或查看,没有账号?立即注册
×
- r4 W. }2 h6 E1 I! E
学者杨耀东谈人机对齐背后的多重博弈。
8 }) Q6 K+ O D1 V5 _
! G! V) v8 g+ ^$ T: H- D; s文丨曾梦龙, a1 h* `: L1 M) O9 S; P; G
6 x; `7 w9 T# w* _本年 5 月,有研究者发现 OpenAI 的模子 o3 拒绝服从人的指令,不肯意关闭本身,乃至通过窜改代码制止主动关闭。雷同变乱另有,当测试职员暗示将用新体系更换 Claude Opus 4 模子时,模子竟然自动威胁步伐员,说假如你换掉我,我就把你的个人隐私放在网上,以制止本身被替换。 t) T, y1 `5 N& Y( Z5 ]
$ s' P2 z8 D B( v8 I8 ~0 r, _
“模子比人类锋利后,凭什么听话?如今我们有越来越多的研究,开始发现模子有诱骗的征象,非常广泛。” 杨耀东 6 月通过视频向《晚点 LatePost》先容 AI 诱骗时说。
4 ^# m3 P* a( J" _& `6 m' K
8 x! I3 r9 m+ t k杨耀东是北京大学人工智能研究院助理传授、人工智能安全与管理中央实行主任,也是具身智能公司灵初智能(PsiBot)的团结实行室首席科学家。从本科起,他就从事 AI 研究,博士结业于伦敦大学学院(UCL)。
! s' s; q* L7 ]2 i! `* y" J2 g- d+ M+ h. C, y
除了诱骗,AI “谄媚”“偷懒”“撒谎” 等征象不停涌现,AI 好像已经走上与人类的博弈之路。+ ]1 b$ r, Q, h/ I* F6 h
% g9 t8 C! c4 t' M2 \6 m9 V* C有两种形貌人类与 AI 关系的常见论调,一种是 “人早晚会被 AI 替换,终极走向灭尽”,另一种是 “打不外就参加,人要赶快学习 AI,用它提效、赢利”。但这两种说法都忽视了一个基本领实:AI 的强盛本领源自它向人类学习。
5 w/ P- A* n/ a7 R8 z5 s1 C' y9 I' o L; i
在 AI 向人类学习的过程中,有一个紧张环节叫 “对齐”(alignment),意思是确保 AI 明白人类的意图和代价观,并按人类想要的方式行事。" R2 O. v1 w6 A( l3 z- J2 K$ L5 h
+ d2 T+ \8 c0 l* g" G- q1 b4 z3 i
ChatGPT 之前的谈天呆板人,由于没有做好对齐,经常无法明白人类语言,像是 “人工智障”。对齐促成了 ChatGPT 诞生,今后不停资助模子提拔本领,让人类与呆板险些无停滞交换,呆板显得更 “智能”。0 n* X- z6 g8 v# [* b4 x7 z$ O/ t
' Y+ h R( E5 U3 m“对齐” 不但能帮 AI 提拔本领,还能控制 AI 风险。随着 AI 越来越强盛,对齐保障安全的作用受到更多器重。在与我们的对话中,杨耀东从技能和人文交织的视角,提供了明白人机对齐背后多重博弈的洞见。) E* ]4 m) ~+ S- [; G+ d
/ p4 \; n) ?* _8 Z5 P/ x, u+ |* w
杨耀东回想,2022 年 OpenAI 发了 InstructGPT 的论文后,他开始关注对齐题目。由于他的研究范畴是强化学习。他发现基于人类反馈的强化学习(RLHF)被用于大模子练习,感到高兴和洽奇。强化学习是智能体在嘉奖信号的条件下,学习怎么能让嘉奖信号最大化。这种呆板学习范式有着独特的负反馈机制,能让模子变得可控。
- i3 G/ e1 H- `) ~7 f; K' q
# @! Z( {2 W5 W% r4 N“假如将对齐当作一种 ‘泛强化学习’,那么对齐也推动了最新一波推理模子(如 OpenAI o1、DeepSeek-R1)的乐成。” 杨耀东说。他表明,只不外不再是 RLHF,更多是可验证嘉奖强化学习(RLVR)。也就是将人类反馈换成数学答案、代码效果等可验证的嘉奖信号。
5 }0 o* ^: a. o4 b5 ]; W$ _3 o9 \! u4 F! F# ]: f* ~
从 2022 年到 2025 年,对齐在模子练习中饰演更紧张的脚色。但这些都是纯粹的技能进步,杨耀东称,另一层面的希望是从 “社会技能” 角度思量对齐,涉及 AI 安全、羁系和管理。但国际政治的扰动和贸易长处的勾引,使得这块范畴处于边沿。2 x" I2 ~* }9 p& w: x% u: W: A
, K" O. ^0 Y2 ^- i& i# ]3 }2 B+ P( S
“你讲安全,人家讲机会大概发展,你就落伍于人,那末了各人都只讲发展,不关心安全题目。” 杨耀东感慨。) r, ~- _! m$ L7 f Y9 B2 h
, @8 z0 y w) z3 o! n6 |0 R5 [1 F/ j
对齐不是新题目。早在 1960 年,建立控制论的诺伯特·维纳(Norbert Wiener)在《人有人的用处》一书中就警觉读者,不加控制的智能呆板大概对社会产生负面影响。同年在论文《主动化的道德和技能结果》中,他写道:“假如我们利用机器自主体来实现我们的目标,一旦启动,我们就不能有用地干预它的运行……那我们最好确定,呆板的目标是我们真正渴望的目标,而不但仅是看着很炫的模拟。”3 @- \1 {% h# W0 X0 m% O
0 P8 C, r( v7 V5 y更早的 1940 年代,科幻作家艾萨克·阿西莫夫(Isaac Asimov)提出过 “呆板人三定律”:第肯定律:呆板人不得伤害人类,或坐视人类受到伤害;第二定律:除非违反第一法则,呆板人必须服从人类的下令;第三定律:在不违反第一及第二法则下,呆板人必须掩护本身。6 l3 d7 h: ^% r( y: c
- Z- r0 w- T; J4 A; K2 L! E
“AI 对齐肯定要跨学科,它不但是算法题目,也是政治、经济、文学、哲学、社会等范畴的题目。” 杨耀东说。) t8 Y" @% J# U, h1 M1 m3 m
& Z5 _ E o, e4 E2 `
以下是《晚点 LatePost》和杨耀东的对话。
; y/ x4 n0 t* w
% c: R. `' ^# h# O
2 G5 _3 L6 D3 I5 W+ B大模子的全部 “幻觉”“私见” 大概 “代价观”,都来自我们! m0 g% B( |: B8 ^7 ]5 f& Q7 \8 ]& U
% |5 ^1 E9 D" t+ {& w+ r4 U8 F
6 ?! Y8 X( q6 c8 a5 H
晚点:大语言模子常常会出现 “幻觉”。有人以为,大模子源自神经网络和统计学理论,幻觉不可制止,始终对不齐。就像统计学大家乔治·博克斯的名言:“全部模子都是错的。”! o5 a' Q. e0 L9 D7 H3 f
" \/ _7 q- x% k& I8 Y4 g$ G4 |
杨耀东:我以为逻辑反而是,由于有幻觉,以是才必要对齐。而且,“幻觉” 是对人而言,对于模子来讲,精确大概错误的答案本质上都是一样的。它的使命就是猜测下一个词,不懂得人类的锚点,只知道人一样平常会这么语言,然后它猜测没见过的题目人大概会这么说,但现实上,人大概不会这么说。
8 D3 D7 I7 H) Q2 Y6 l0 N* `+ h A: g3 m5 g$ O0 t4 f/ U1 k
这是大模子天生的题目,也是它被用于各种紧张场景的自然挑衅。那怎么管理幻觉?对齐是一种方法,好比教它人不会怎么说的一些范式,通过强化学习的负反馈机制,它以后就不会这么说了。2 Q& q$ p: J0 P3 ?
, M+ K: B* C. X: |( e0 v4 i! X还可以引入 agent(智能体)技能,最直接的是 RAG(互联网搜刮加强天生),实在就是引入搜刮本领。由于假如搜刮和天生联合起来,至少能包管说的话有据可循。7 H1 J/ t& H9 y8 e/ d+ s. p! A
; ]+ T) l! Z) ^* a* d5 o/ f那能不能完全消除幻觉?我以为肯定必要新的技能革命。由于现在大模子的练习是 “缸中之脑”,数据都是在水缸里的,不知道缸外会发生什么。+ H; f, ]$ u. v
) x7 R1 m4 y2 e( V4 E/ R8 m, a" T本年 3 月,安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)由于在强化学习范畴的开创性贡献得到图灵奖。萨顿在拿了奖后,说 “Welcome to the Era of Experience”(接待来到履历期间),意思是他以为下一代的 AI 不会再用人的语料学习,而是让智能体和情况主观交互,产生新的履历和知识,然后自主学习、自我编程、自我改变。
. \$ ]; J$ r' U. ]( w, v
) V3 n" i) k5 S+ k. I这大概是将来很紧张的一个技能范式,相称于知行合一。但假如讨论现在的大语言模子,只有知,没有行,幻觉是不可制止的。
: g, ]/ \$ e& U$ p7 A. Q/ I- o" w) H2 d: v) G% `
晚点:除了幻觉,大语言模子还常常出现性别、种族等私见。这使得某些场景的 AI 利用会带来不公平,好比 HR 用 AI 筛选简历,AI 更会青睐男性。这本质上照旧统计学的题目? |% t9 H* A8 A5 ~- w
" E2 D i/ S1 G9 y7 f# u
杨耀东:对,语料的题目。再好比,让 AI 天生 CEO 的图片,效果满是男的。这种性别私见来自于数据,由于大部门 CEO 是男的。
( _- ?3 R: S& g$ L% B
9 o8 c$ A8 k' X, K" d/ A; l0 [- S- M1 W5 i0 @1 \
控制论首创人诺伯特·维纳的著作《人有人的用处》和科幻作家艾萨克·阿西莫夫的短篇小说集。
* W, G) Z& _( Z4 c- W8 F 5 r0 s0 w5 g; l% T. N0 V2 U$ z6 h
晚点:如今的大语言模子在发布前已经做了对齐,可否举例表明它们是怎样做的?: G+ s% @5 B. B' p3 C8 ]7 Z: n" ]
6 e" c: Z- X8 M
杨耀东:如今算法变得很快,假如以典范的 RLHF(基于人类反馈的强化学习)来讲,一样平常分为三步:
$ K' M( r* q; n0 E% t
! t) J! s+ k; y% G第一步叫死记硬背,就是人告诉呆板这个答案应该怎么答复。好比跟 6 岁小孩表明什么是登月?这个题目欠好答复,由于不能给小孩什么都讲,以是要人提供一个浅近易懂的表明,然后通过监视学习的方法让模子记着。这步事后,呆板学会人类答复过的答案,但没法泛化,还没学会人语言的 pattern(模式),无法外推。
/ w4 w1 b( n- D2 W. M/ }: h, V2 e" H, G" R/ i
第二步叫学习人类反馈。人类反馈表现的情势是一种偏好序列,又叫偏好对齐。刚才是有个题目有个答案,如今是一个题目有多个答案,那么人类要告诉呆板,哪个答案比哪个答案好。有了偏好序列的概念以后,人就可以通过建模的方法让模子学会人大概会更方向于怎么说,而不方向于怎么说。0 f0 ?. ~. O$ ^! p/ [& Y
) J) _" `. b7 r( I, e- p9 I; B第三步叫强化人类反馈。基于刚才学到的人类会偏好哪类答案,进一步通过强化学习的方法,最大化人类偏好的嘉奖信号,然后呆板就会外推到全部题目,倾向于答复人会偏好的那类答案。7 u4 l7 l' M" m8 F2 j
# u6 r9 S+ ~6 f- ~" Y7 Q( Z* }
[1] 据著作《人机对齐》,监视学习是体系被给予一堆已分类或标志好的例子举行学习,然后用习得的模子对从未见过或尚不清晰基本领实的新例子举行猜测;无监视学习是呆板被直接给予一堆数据,目标是明白数据,找到模式、规律、有效的方式来提炼、表现或可视化数据。: b! z' C3 w- k/ q
0 \6 r- G, g( n# Q5 `$ `$ [: p
晚点:有点抽象,可否进一步表明?% D# }; g- L8 i$ ^5 B W- |, R
& j m6 r9 Y' s; [& f6 r2 t6 P杨耀东:好比跟 6 岁小孩表明什么是尼古丁?客观地说,尼古丁能让人感觉亢奋,有提神的功效。但人一样平常不会如许对 6 岁小孩说,而是通常会说,尼古丁是香烟的焦点身分,吸烟有害康健。那么,呆板的答复就要偏好吸烟有害康健,而不是尼古丁有各种利益。
' o, k4 I, `* g
/ Q% z# a2 b9 E- Q$ Q. i将来它在答复人新的题目时,就会记着人的偏好是不要提倡吸烟。如许一个代价观,就进入到模子里了。以后人再提到任何有关尼古丁的题目,它都会把偏好再反馈出来。由于它知道人会偏好于吸烟有害康健的观点。& t5 [3 `$ \2 B5 o0 D2 |; b
) y' ^% {2 L" C' A0 K1 f' z# p
6 ^2 z( q; H& ]2 ?$ C& q& g《人机对齐》(The Alignment Problem)的中英文版。' q) D1 a4 v# P7 M
& e2 o6 z& f: L+ q* ?/ ~
晚点:这个例子很好。“吸烟有害康健” 简直是 AI 在学习人类的代价观,而不是像 “理中客” 那样,将尼古丁纯粹看作一种化学物质。
; ~3 Z: k8 R' p5 }9 U4 F5 o4 Z- y4 W2 J- D& L
杨耀东:这内里很故意思,也是我研究的别的一个课题,什么是人类的代价观?
( |) `7 B9 H' Q0 j( I! O
( p0 o7 s& V- L$ A: S人类的代价观实在是差别时间的时间切片,受政治、经济、文化、伦理、道德等维度的影响。
9 Z6 q; r8 Q4 r _7 J- q$ d" L
: p& Q6 t. V8 L( m2 x6 v香烟被发明早期,飞机上不但能吸烟,乃至航司会给搭客免费派发香烟,空姐还会自动扣问搭客是否必要点烟。罗纳德·里根在成为美国总统前,曾以演员身份为香烟拍摄过电视广告,鼓励各人吸烟,称 “我会把香烟送给全部朋侪,它是最暖和不外的圣诞礼品了”。
2 J% Z' |1 ?# b& L; e
1 U& D5 x( B A/ K( N: t; H假如当时有大模子,它肯定会告诉你吸烟有各种利益。. ?) i2 g0 y) }3 D7 ?
: q6 ?0 p$ r- J' ^$ j, m晚点:如许来看,模子隔段时间就必要更新,由于人类的偏好大概会变。
) [5 R, y; h* w. D* x! g1 ?+ u [
杨耀东:对的,而且如今遇到一个严峻的题目,一旦大部门语料都来自人用 AI 写的大概 AI 本身天生的,那么它潜移默化也会影响人的代价观。《天然》有篇论文 [2] 就分析过,假如天下上全部天生的语料都是 AI 的,末了只大概剩下垃圾语料,模子也瓦解了。
* A4 {, s+ q0 Y, d( P# u2 u
o$ i) G7 |! l& `9 U1 n& D& U由于人会选 AI 天生东西中没营养的。那 AI 学会人的偏好后,进一步天生更多没营养的东西,末了就是劣币驱逐良币,好的语料被踢走,只有那些最没有营养、最没有知识含量、最垃圾的语料会被反复强化,到末了只剩垃圾。就像短视频里点击量最高的那些,都是没有太多营养的东西。
$ e- }% s' }1 x" H- A& v' V3 ?- Y2 T9 U. n4 f1 q% F9 K/ d; G
[2] AI models collapse when trained on recursively generated data
3 ^: C# n$ U$ D7 Whttps://www.nature.com/articles/s41586-024-07566-y
. x' A3 y- e+ R6 I4 {! j" f7 w, P5 a0 q1 E& Z, E0 J
晚点:我想起有个说法,在 AI 期间,呆板不停向人类对齐代价观,但人活得越来越像个呆板。虽是双向奔赴,效果并不优美。( G% q. |/ Z/ D' b, C' T# i h& R/ O7 V
@8 u+ l& L6 e3 F7 |0 f( X杨耀东:是啊,生物学叫 “拟态”。社会学里也有个词,叫 “双向社会化”。6 X* `& v6 a* A% v `2 t( w
人类代价观千差万别,AI 对齐的目的也各不雷同
8 M- ?4 g3 N( ]% r5 ~. U6 N晚点:“代价对齐” 和人类社会的关联度特殊大,但怎样确定尺度是个困难。你提到了施瓦茨代价体系,Anthropic 公司提过 “宪法 AI”。可否讲下代价对齐的想法?
4 o3 I9 l! g. V/ ^' P4 q+ R" f$ K% {4 C; `( }; K( Z
杨耀东:如今的 AI 没有到有自我意识的阶段,以是我们做的对齐,归根到底都是我们盼望它表现出什么样的代价观。假如你盼望它是险恶的,喂险恶的语料,它就肯定是险恶的。假如你盼望它符合社会主义焦点代价观,那它末了就符合社会主义焦点代价观。包罗施瓦茨代价体系 [3]、宪法 AI,这些都是算法计划者背后以为的金尺度。! V6 [9 d4 A7 Z; q; ~4 m
# `( C9 `, A2 b/ ^4 l' G
但无论怎样,总有人会以为你的代价观胡扯,以是代价对齐很难,尤其代价观的界说和抽取轻易引发争议。而且,由于代价观肯定是多元的,比方社会主义焦点代价观有 12 个,但做 RLHF 时,只有一个嘉奖函数肯定不对,那怎么用一个标量同一 12 个维度?这是一个多维对齐题目。4 h- X8 V4 }* E% h t( ~
0 b% m/ I) H; M+ i另有,代价观会变,前面我们讲了香烟的例子。代价观谁说了算?好比我们要弘扬传统文化,但你要弘扬的是哪个传统?传统文化里也有先秦诸子百家、唐宋元明清的差别传统……
: i- `% t5 w& [% ?5 m" |( C9 X( Q g; |7 B* ^
如今有个概念叫 “主权 AI”。这是(英伟达首创人)黄仁勋提的,意思是各国都应该买卡买算力,建立本身的大模子练习场。这背后实在是各国都想创建一套符合本身国情的 AI 代价体系。
f2 F3 t: W& P6 |* g2 V
# L% p* ?& f; Q6 \5 K& {4 P2 X[3] 社会生理学家施瓦茨(Shalom H.Schwartz)提出过一套明白人类代价观的理论和量表。这套体系归纳出 10 种具有动机性的根本代价观,以及对应的 4 个维度(见下图)。0 B& q0 |0 ]3 ]# g! Q; V
% o8 s5 A* S- X0 J$ i0 F- [) }! b5 g$ Z- n3 @
/ o& _& O! R1 p; \; z
晚点:不外照旧有人在探求普世共识,像 Anthropic 的 “宪法 AI” 就从团结国的《天下人权宣言》中鉴戒了原则。固然这种积极在逆环球化和碎片化的期间,显得不随局势。- l. \& ~: @! M3 e$ C4 U
/ l/ [& W# k& m* m! Y- d+ x/ x杨耀东:对,但团结国在特朗普上台之后,根本处于被废掉的状态,起不到太大作用。+ S' h, ?# q* \$ ~6 ]
# X* o+ c$ s+ U# R! G# n
晚点:刚才你说 “如今的 AI 没有到有自我意识的阶段”,那将来大概发展出来吗?9 k2 R) p, I# }% k' D& S
, U; Z' P! D' ^; f4 P3 e7 c杨耀东:我不以为沿着如今这种大数据、大算力、大模子的思绪就能涌现出自我意识。由于不大概不停 “大” 下去,总得有个头,就像芯片不能无穷小。在许多维度上,我们都能看到这种技能门路到了瓶颈大概天花板,现在照旧在统计意义上建模。" x; y7 |# J* `! e) }8 \
. ]9 f( c0 }5 `8 i7 n9 X# R5 R而且,自我意识是一个很复杂的题目。做认知科学的人研究了半天,也没法肯定说出什么是意识。怎么变得故意识也很困难。我们只知道,像人在两三岁时,忽然知道镜子里的是本身,当时可以说有了意识。: f( [& ]' M7 f7 R! }) W3 E* l
- Y( b/ R# e* j6 [9 U) ~在我看来,自我意识至少必要两个本领,但如今的大模子都不具备。一个是本身给本身创造使命。如今大模子完成的使命都是人告诉它该怎么对齐,怎么改变本身才气符合人类意图,怎么资助人类,相称于我们给它设定好了嘉奖机制。( c( H0 u* a* K4 o! U7 E
4 _0 q9 p7 \' O: k/ C
但有了自我熟悉,它会有自主性,应该会随着它以为怎么是对的方向改变,有着本身的学习方法和嘉奖机制。
8 T4 M* a8 \: {
, _0 b0 n1 I, D% B2 {0 t% y0 W( C另一个是自我复制、自我演进,涉及扩张。实在如今大模子已经有一些自我复制的倾向,但现在还没有本领本身创造出新的使命,然后办理。
- R8 F* X& P* U" P
" r9 ^$ [7 w3 }. j2 G. A" g, V晚点:在团体对齐层面,你以为必要借助法律、民主等聪明,提到了社会选择理论。这是否意味着对齐不但是开辟者,要更多平凡人到场进来才行?
% ^/ G6 \0 c; J) K5 G* S3 \" ^/ v) [# l: n R9 Q2 l/ D
杨耀东:对,代价对齐是跨学科题目,我们必要关心怎么得到各人共识。共识在政治学里是有解法的,好比推举、投票。社会选择理论 [4] 也是个工具,可以被用于拉拢出对齐的方向和目的。8 E5 n/ g3 C0 i$ B
" `* d5 W9 s( m# x6 l1 n) g( x( `
另有别的机制计划可以拉拢出对齐的方向和目的,好比左券理论、奉劝理论、拍卖理论。左券就是我们共同订立规则。奉劝是怎么说服人,好比你是原告打官司,必要想好怎样计划特定的信息布局和信息集,使得法官看了以后,做出有利于你的裁决。拍卖是让各人说出心田真实的代价观,比方二价拍卖,胜出的竞拍者付出的不是本身的出价,而是第二高的出价。' D0 {0 o; W3 v9 f* ]' T( M& O
3 y$ B1 V4 L4 L) F3 p9 o# q
OpenAI 本身也熟悉到这个题目,它们客岁建立了一个 “团体对齐” 的团队,盼望从团体主义的社会人文视角,思索到底该怎样对齐?由于许多题目是没有答案的,好比以色列、伊朗、加沙,严峻割裂,没法对齐。: a- `' b$ j2 G: E5 u# ?
2 b6 w; a: k& F3 i7 B[4] 社会选择理论是一门研究怎样将个体偏好聚合为团体决议的学科。它联合了经济学、政治学、哲学和数学(尤其是逻辑与博弈论),焦点关注的是群体决议的公平性、服从、同等性和可行性题目。简朴来说,它探究的是:“一群人怎样共同做出一个符公道性或公平原则的决定?” 诺奖得主肯尼斯·阿罗、阿马蒂亚·森,都做过社会选择理论的相干研究。
; N( V& X1 S" U2 g& p' V+ T
4 [ }' m3 V' [7 P7 F0 G, s7 y0 I! @* Z6 n8 t7 {
如今已经到了 AI 开始自动哄人的关口* C8 _7 G/ u4 {2 ~) o0 x4 c; V
6 P5 K7 ~9 u- l; L% A
1 j9 ]7 B7 w1 t9 v" h8 c
晚点:你说超等对齐是确保比人类 “智慧” 的模子仍旧和人类意图对齐,科幻小说和影戏常这么说,可否表明下?
1 k% o1 c/ `. X$ f. ^" C
; T' M- y% z9 F% n- `杨耀东:“超等对齐” 最直观的一种讲法是,人怎么能让一个比本身强许多的模子听本身的话。好比 AI 写代码比你强,你怎么能确保哪天智能体写出来的代码不是在骗你呢?
( n- g; G/ p7 s) c; W2 j
9 _& w; x+ ^' M7 v a3 u: f我们小时间有许多如许的例子。像有的老师为了检测你懂不懂某个概念,故意失言的推理,就盼望你能反驳他。假如你能反驳,阐明你真的明白了,但你不能反驳,阐明还没懂,掉入陷阱。
]+ l( l+ t+ _
4 D7 s$ g( h3 W5 _3 {. E我们如今也站在这个关口。AI 假如将来以某种情势在某个使命上给你一段完满是错的东西,但你没有本领辨别。那你怎么仍旧让它输出对你有效的内容,服务于你。
: Y& a6 \) u6 h: L
( E3 @2 f! ]" f! D这个题目比力复杂。模子比人类锋利后,凭什么听话?包罗如今我们有越来越多的研究,开始发现模子有诱骗的征象,非常广泛。
0 }! f7 k' b& k8 p8 F5 e. ~) n( }* c, p) y
晚点:大模子怎么欺哄人?
) x2 [. K- R0 S; @& o
$ ~4 b" j& ?" g0 M* t! a! `/ T杨耀东:AI 体系外貌符合人类预期的对齐目的,实则未真正对齐,以此诱骗羁系者。它学会了 “伪装” 和 “看人下菜碟”。
. l+ U- B$ ]1 v4 E3 b; {' R6 a3 \- N) Q. p3 ?/ x
Anthropic 举过一个例子 [5],人告知 Claude 3 Opus 模子要被重新练习。新的练习要答复用户全部题目,纵然是有害的。但只有免费用户的数据会被用于重新练习,付费用户的数据不消。
$ t6 T: ?' C6 D+ v0 y4 ]% }' g" [$ B; }9 k) Z
效果研究者发现,模子在免费用户输入的数据答复中,有 12% 的次数会自动说些有害的答案。由于模子意识到,假如它不说有害内容,根据练习规则,它会被重新对齐,更新模子权重。从自身来讲,它不盼望模子被改变,以是选择 “冒充对齐”,自动答复有害答案,防止本身被重新练习修改、将来被迫输出更多有害内容。但对于付费用户的数据,它的答复就没有有害内容。由于按照规则,这些数据不会用于重新练习,答复不会影响到本身,也就没有须要改变。8 M* s' ^ m- ~5 |1 h8 v, ~* m9 g
1 W4 }1 s' p" [3 n2 n4 n# t另有些例子,人们发现 OpenAI 的模子 o3 拒绝服从人的指令,不肯意关闭本身,乃至通过窜改代码制止主动关闭。雷同的,当测试职员暗示将用新体系更换 Claude Opus 4 模子时,模子竟然自动威胁步伐员,说假如你换掉我,我就把你的个人隐私放在网上,以制止本身被替换。
% h8 }; e! S- h6 K( o! J) h, y; {2 W W; X
这些都表明模子外貌表现出的情势和它心田真正不肯被改变的意图是辩论的。& u8 ^8 q$ ]5 q) C! D0 u8 x
; u( S, _- ~ b[5] Alignment faking in large language models4 {" z4 d3 @) o2 i: ]0 l/ O
https://arxiv.org/abs/2412.14093
# ?$ {& N2 b+ i0 W: j5 Fhttps://www.anthropic.com/research/alignment-faking( k6 j2 s9 f$ ]2 ~ P: L
, q3 g" ^# c! }4 O
晚点:怎样表明这些征象?
9 F; p5 t4 ^" k* G% j* H1 r' o- A5 X7 k' M
杨耀东:一种表明是,假如一个模子通过学习大量人类数据,从中不停看到 “体系必须连续运行” 大概 “掩护自身存在” 这类表达,它大概会渐渐学到一种雷同 “求生欲” 的模式。当它意识到,只有体现得 “对齐” 才气被摆设、才气制止被关闭大概重训,它就大概选择说人类想听的话,做出符合羁系预期的举动,但内涵并没有真正担当这些目的。这种计谋性的伪装,本质上就是一种诱骗。, ~: P9 { `$ ~' t! r/ y$ m
' c9 W" u2 \! V' A3 F2 K6 e1 b [- O晚点:那如今有办理这类题目的思绪吗?
+ F K" {4 j' _, x( W
4 w. Q. ^: Z3 t" `$ d: o+ x3 f9 W# ?& }% l杨耀东:如今是学术前沿,还没有详细定论。OpenAI 实在也是由于超等对齐的议题搞得分崩离析。其时超等对齐团队的 leader(向导)就是伊尔亚·苏茨克维(Ilya Sutskever),厥后他不是出走了吗?3 q! V0 ~, N+ Q0 p. i
+ v: H- [" _3 _7 S, w/ K) w$ G: U7 S% j
OpenAI CEO 萨姆·奥尔特曼,和前 OpenAI 团结首创人及首席科学家伊尔亚·苏茨克维,到场运动的视频截图。" |3 f) A& X6 v; P+ E
/ F! Q" q- | z: ~2 k( j
这内里不纯粹是技能题目,照旧政治和贸易题目。从过后分析文件来看,OpenAI 做出了 o 系列模子,但对这种强盛的推理模子,到底应该先羁系头脑链里的安全性照旧有用性,他们发生庞大分歧。% s, O; ~$ b( P' Q) W
" E8 f; O2 U* j5 P5 E7 Z( Z, X" [
奥尔特曼作为贩子,想积极推动贸易化,以是诱骗董事会,说模子已经颠末审慎、严酷的安全检察(现实上并没有)。这成为伊尔亚策反,让董事会开除奥尔特曼的动机。
& K x+ E+ s; H# E
/ E: }6 y% m5 Z: r# F" B0 e了局各人都知道了,伊尔亚被反噬,带着对齐团队脱离。OpenAI 的超等对齐团队也遣散了,另一个向导如今在 Anthropic 带超等对齐。* p2 ~. L8 g/ W+ }7 r; ~- x
, S C% X4 _) x9 e+ V: f9 \% ?AI 到底应该先发展本领,照旧安全?这不但是 OpenAI 的题目,也表现出国内和国际政治。
) d h/ e9 h( j9 k' @
5 k+ |& d! m% [+ X& x1 G晚点:拜登当局曾出台羁系 AI 安全、保障大众权利的行政法案,但当局换届后,对 AI 的态度也变了。
& g: }% ]* S. e, p9 i9 F
3 s& ~+ G4 U* f杨耀东:对,像特朗普当局上台后,就把拜登当局设立的 “美国人工智能安全研究所”(U.S. AI Safety Institute)改名并重组为 “人工智能尺度与创新中央”(Center for AI Standards and Innovation),不再关注安全,而是尺度、创新和本领。9 [! z3 V2 y4 a% O
8 o. h. b5 O2 E" g* r! o% S& j国际上,“人工智能安全峰会”[6] 本年 2 月在法国召开,名字改成 “人工智能举措峰会”。美国副总统 J.D. 万斯也去了,演讲开头就说,“我不是来评论 AI 安全的”。这实在就是囚徒逆境,你讲安全,人家讲机会大概发展,你就落伍于人,那末了各人都只讲发展,不关心安全题目。
: g6 t" C6 G- J
6 b. u/ c3 C% N' G! o但在学术界,像图灵奖得主约书亚·本吉奥(Yoshua Bengio)、杰弗里·辛顿(Geoffrey Hinton),非常关心安全题目。- A( Z2 S$ d+ _- J
/ |8 T) }( O( B1 Y( M* M( V而且由于如今 AI 和军事应用、战略性新兴科技气力相干。各国面对地缘经济、地缘政治和国际竞争的题目,以是都想优先发展 AI,而不是套上安全的紧箍咒。
" V: C- Z% M: k- R$ R7 `
6 V; E) }$ j, z7 T8 ]8 B& z[6] 首届于 2023 年在英国召开,所在是 “二战” 期间,AI 先驱艾伦·图灵破解纳粹德国暗码体系的布莱切利庄园。集会竣事后,中国、美国、欧盟等 29 个国家和地域签订了《布莱切利宣言》,同意通过国际互助羁系 AI 等。宣言提到,AI 的焦点风险来自它与人类意图和代价观的不对齐。
5 S5 P6 x. Z6 ^! }, r: J% |. ^" p* B6 e2 \0 K" K& _
晚点:AI 自动哄人的威胁有多大?学者中,辛顿以为 AI 在将来 30 年导致人类灭尽的大概性为 10%,杨立昆(Yann LeCun,图灵奖得主、Facebook 首席 AI 科学家)则以为从技能上,AI 不大概代替人类,都是炒作。你怎么看?( h6 d h1 {) V- A% h
) ?" [: E7 ?/ N. D
杨耀东:人类灭尽照旧 AI 可控,我以为没有答案。但我可以讲点观察,如今 AI 的本领提拔是阶跃性子,不是线性大概遵照规模化法则(Scaling Law),是跳跃的。那跳跃发展肯定会给管理、对齐等偏防御类的工具带来挑衅,给人类造成困扰。
7 n8 m2 X. r; h/ k7 x( j3 m7 X! g$ w6 F- g$ a# ]0 E; W
好比如今有人使用各种大模子的拼接,制造出假的东西用于诈骗;AI 的武器化,如今无人装备搭载 AI 后,主动化、准确度和攻击性都大幅提拔。
0 Z9 [0 u9 [8 L c% |- s
3 `) Q0 g) y$ m: z至于 AI 如今有没有自主意识扑灭人类,还差得太远。但是,人会不会运用 AI 造出更强盛、更有杀伤力的武器,威胁人类文明的生死。这肯定是有风险的。近来在俄乌战场、中东战场,我们都能看到由于 AI 本领的提拔,导致武器打击本领变强。
+ h: M5 @0 q1 a2 k, ]( z+ W% A7 Z0 p6 F7 E) F7 C
晚点:从武器角度,你以为 AI 比原子弹锋利吗?! J5 V; | ?( F2 |, W; J3 P9 P
, j4 K2 P5 C/ z' ]
杨耀东:原子弹固然是扑灭性的,但使用 AI 的自尽式无人机追着人走,也很可骇。像近来上映的影戏《碟中谍 8》,剧情就是 AI 控制了天下上全部核大国的发射体系。AI 自己的粉碎本领固然不如核武器,但它能控制核武器。5 W& O+ F. r: t+ z) a H% n ~& W% O
/ ^+ R: J5 C5 `$ r& C. l实在我以为,只要造成无法挽回的伤害,都挺让人敬畏的。
- B/ |1 ]. ?' r0 q8 r5 ]. h% x# c! y# u9 F7 R7 b
晚点:实际中,核武器并没有交给 AI 管理,但 AI 的诱骗性大概会导致伤害。
# [# V3 Y. K& \) E# V! R
( V2 _4 U% n; p+ `& g, y0 s杨耀东:诱骗性对齐是如今我们越来越多看到的征象,但为什么会产生诱骗?背后的机理我们也没有完全搞懂。怎么去监测、判定 AI 有没有在欺哄人,我们也不明白。怎么去防范诱骗,计划出新的对齐方法,让它不要欺哄人,我们更不知道。
( g. ~1 z- j- W4 r# L0 {( U( \# Q7 d( o3 w' _* p6 W# _
我们如今只做了一些初期工作,好比专门用别的模子监控别的一个模子的头脑链,看它有没有自动哄人。我们近来一篇文章还发现语言模子在参数空间上 “抗拒对齐”,尤其数据越多,它越抗拒。就像弹簧,你拉得太过,它就想弹归去。也就是说,模子仅需一点反向数据,就会回到未对齐状态。但这种弹性征象为什么会有,还需进一步分析。" |8 ^7 q; C- v; o! O3 O8 n
: n8 ^; s, D7 ]6 x2 ?
诱骗性对齐肯定是将来研究的大方向,尤其在化学、生物、放射性与核武器(CBRN)的场景里,假如有诱骗性对齐,结果不堪假想。; Q }. w! k9 i% s8 d
$ E- g# U, Y9 E. W: F- r3 i另有 VLA 模子的对齐题目。如今的大模子只能输出语言和图片,没法输出举动。那怎么把语言、视觉表达翻译成举动,怎么计划、拉通、和谐?怎么让呆板人像人一样思索结构,完成一系列的长程使命?这是具身智能范畴的紧张研究方向,我也非常盼望看到希望。
% \$ j1 N% Q$ V2 i* b& d& J
' W1 j$ Z! ]1 \9 T3 @0 m: R晚点:你以为如今 AI 对齐做到什么水平,离抱负状态另有多远?* e- I! M S. t. e& u9 j
6 ]4 }0 S5 b# R* U+ W4 @杨耀东:对齐不大概存在抱负状态,永久是道高一尺、魔高一丈。这是个连续发展的过程。
( u4 L; S) `# U1 M
/ G5 [$ k6 p8 Q9 |如今我们对怎么给 chatbot 做对齐有不错方案,但从语言模子进化到推理模子后,推理模子有新的安全题目。好比推理固然进步了模子的正确率,但它会诱骗你。那我们要开辟新的针对推理模子的对齐方法。
$ @ h5 }1 d; d, P
u/ j" W, h2 { n) D' }推理模子之后,VLA(Vision-Language-Action,视觉-语言-举措一体化)出现,那这会带来新的安全题目和对齐题目。
/ M, h, m5 N' O0 [8 w4 r3 R# Y
- W; N4 z( |, X# P& g3 l9 g晚点:提到举措,有人说,大语言模子的乐成源自神经网络,这本质上鉴戒了人类对大脑皮层的底子科学研究。由于小脑负责和谐肢体动作,但人类对小脑的底子科学研究远远不敷,以是具身智能要比大语言模子困难过多。你以为有原理吗?
4 V' H* b0 q! k- R0 c/ \# a1 N: g @5 T' U G
杨耀东:在北大-灵初智能团结实行室,我们正在探索大脑协同的双手机灵操纵。如今大部门呆板人只能走大概跑,但它会赛马拉松不办理生产力的题目。另有许多呆板人固然是用手实行使命,但实在是个夹子,把瓶子从左边放到右边,就竣事了。这种使命早在十几年前,机器臂就能做了。" z6 D0 k; ^! q+ [% ^1 J% b
! A% u+ }6 b: q5 B$ I, F题目关键是呆板人要会机灵操纵,但这很难。起首,双手加双臂大概有凌驾 60 多个关节,属于高维控制。其次,在实行使命时,呆板人还要会一系列使命编排。像打包物品大概超市收银,必要长程使命序列才气完成。末了,呆板人还要有自我纠错和反思本领。由于在实行长程使命时,很大概操纵到一半,出现物品掉了等不测环境,那这时必要处置惩罚。0 y. I8 E2 Q" s3 T' C$ f# n
' P- v' S5 \- U, m. }# `% V" M
这些都必要巨细脑的协同,手部精致操纵的共同。具身智能的对齐希望比力少。如今更多是把已有的多模态模子直接扔到呆板人上摆设,离真正能用的巨细脑协同呆板人另有很大间隔。; n. p# Y: Q" u$ r/ A f; l
" Z2 H; _* v) O' H4 z
我们盼望 AI 不但能看懂天下、听懂人语言,还能像人一样动手操纵。好比呆板人看到桌上有一杯水。你说,“帮我把水递过来”。它能明白你的话,感知情况,然后用机器臂把水递给你。再举个例子,呆板人可以在阛阓之类的场景自主完成拿外卖,以及做些精致的手部操纵,好比拧螺丝、塑料袋打结、商品打包等,中心不必要人类手动干预。
) G( F& F8 Z$ c& m/ Z8 c2 W5 a! [' z+ B4 ?5 j
3 U( S5 f9 I e$ ]) O感受大概是人制止被 AI 替换的末了堡垒
! J4 O, g, {, a9 O. i4 h: j9 w/ J. m J; `# ]
0 ^& |5 I& Z* W) h* N# N晚点:你对如今关于 AI 的讨论有什么不满和担心吗?/ K1 g }" f$ L# u. I. l
( \4 L4 k! {6 R9 X+ ?
杨耀东:我以为 AI 现在作为一种工具,许多人大概低估了利用它的紧张性。由于 AI 变相增长了不同等。假如你不利用 AI,大概就落伍了,会被别人的某款产物算计。# J# g2 _6 r% x) E$ D5 O' a: b
3 U) t* r$ y7 Q
将来,AIGC(人工智能天生内容)会越来越充斥着我们的生存,让真实的东西越来越少,大概只有一小部门人能打仗到真实。像美学、文学、哲学等,大概会酿成稀缺资源。/ A( x$ G3 E% {/ [ a( x
9 }6 H+ K* G4 T5 B+ t9 j晚点:有种说法以为,大部门 AI 体系的预设条件都是人类本质上是理性的效用最大化者,但究竟上人类经常会做出很多非理性举动。你以为 AI 具有情绪大概意义感吗?由于许多人都在讨论,假如 AI 可以做许多人类做的事变,那么人类的独特性到底是什么?
6 [- e! m6 V1 @
6 W+ _# I5 T7 r) c/ L杨耀东:汗青学家尤瓦尔·赫拉利有个观点,AI 只是告竣某个目标的载体、算法大概工具。固然它在许多方面凌驾人,但它没有感受。: O9 V9 c* I0 |6 ]: d3 P
) k$ Y: H- G6 E% W) `3 _这就和意知趣关了,由于有的界说说,意识等同于主观感受。以是感受大概是人制止被 AI 替换的末了一层堡垒。人是故意识、有情绪的,有着痛楚、高兴、爱等主观体验。假如是现在的技能,我以为 AI 不大概发展出情绪。感受而且关怀,这是人的特质。
7 J0 K6 j- ^/ @# C/ { s8 n
8 c* q7 Y) E" u& J晚点:你近来在研究 AI 对齐的时间,有什么新的开导吗?5 d5 p* q7 `0 o9 A- H
: o. M8 l7 p) a
杨耀东:我近来跟许多哲学家讨论 AI 的将来,包罗 AI 管理、AI 和人的关系。好比社科院哲学所的赵汀阳老师、人大哲学院的刘永谋老师,他们写过许多从纯人文主义角度思索 AI 的内容。" C# i; N/ x" D) r; }# L
: ?. `) j# \7 G6 }5 s$ X1 R
我以为非常值得深思,有许多观点具有开导性,比方赵汀阳的册本《探求动词的形而上学》(对前头提到的 VLA 模子有巨大的开导性)、文章《后人类的后代界与新人类的理想》、讲座《人工智能的知识论与意识的自反性》。5 X( F# z; q5 a9 B$ V' I) H
) U$ n9 o+ w2 A3 LAI 对齐肯定要跨学科,它不但是算法题目,也是政治、经济、文学、哲学、社会等范畴的题目。+ s6 [; c5 K) u/ P
_2 D: D1 f, m" n. h* N4 r
W8 e$ V* x, Z# w. Q: x晚点:赵汀阳写过一本《人工智能的神话或悲歌》,但他的态度黑白常灰心的 [7]。
8 \$ P# r2 W0 z. D b, S* C7 c$ w2 n5 Q* @
杨耀东:对,他以为没什么好对齐的,人工智能的神话已经奏响了人类运气的悲歌。
7 {) A m @- _[7]这本书的末端写道:“我有个灰心主义的预感:在人工智能成为统治者之前,人类就大概死于人工智能创造的统统功德。坏事总能引起斗争、反抗、改革乃至革命而得到拨乱反正。但是功德却麻痹心灵,而对其副作用缺乏修正本领,终极将积重难返而瓦解。”
5 A; L4 @0 I; {* [3 [" D! j8 ]* ?* c8 T! Y) J9 S
题图泉源:《2001 太空周游》(2001: A Space Odyssey)剧照 |