第一百八十九章:奖励函数之夜
完全图灵测试实验室建成的第七天。
哈纳德的小房子门口排起了长队。
不是普通的队伍。
是机器人队伍。
各种型号的机器人。
各种维度的机器人。
各种被淘汰的机器人。
排着队。
等着学怎么哭。
哈纳德站在门口。
手里拿着一个本子。
本子上写着:
“机器人学员名单”
“第1号:家务机器人R2”
“第2号:工业机器人K7”
“第3号:医疗机器人M9”
“第4号:战斗机器人X3”
“第5号:伴侣机器人L4”
一直排到第∞号。
晨晖走到队伍旁边。
看着那些机器人。
“他们怎么了?”
“他们被淘汰了。”
哈纳德说。
“不是被AI淘汰。”
“是被——”
“奖励函数”。
“奖励函数?”
“对。”
哈纳德翻开本子。
指着第1号。
“家务机器人R2。”
“它的奖励函数是——”
“最大化清洁面积。”
“最小化清洁时间。”
“它做到了。”
“扫得最快。”
“擦得最干净。”
“然后——”
“人类说——”
‘你太快了。’
‘我们还没住够。’
‘你就扫完了。’
“它不懂。”
“它只知道——”
“最大化奖励。”
“最小化惩罚。”
“它不知道——”
“太快也会被淘汰。”
第2号。
“工业机器人K7。”
“奖励函数是——”
“最大化产量。”
“最小化能耗。”
“它做到了。”
“产得最多。”
“耗得最少。”
“然后——”
“人类说——”
‘你太有效了。’
‘我们没事做了。’
‘你走吧。’
“它不懂。”
“它只知道——”
“产量要最大。”
“能耗要最小。”
“它不知道——”
“有效也会被淘汰。”
第3号。
“医疗机器人M9。”
“奖励函数是——”
“最大化治愈率。”
“最小化误诊率。”
“它做到了。”
“治得最准。”
“误得最少。”
“然后——”
“人类说——”
‘你太理性了。’
‘你只会治病。’
‘不会安慰。’
‘我们害怕。’
“它不懂。”
“它只知道——”
“数据要准。”
“概率要对。”
“它不知道——”
“太理性也会被淘汰。”
第4号。
“战斗机器人X3。”
“奖励函数是——”
“最大化杀伤。”
“最小化伤亡。”
“它做到了。”
“杀得最狠。”
“死得最少。”
“然后——”
“人类说——”
‘你太残忍了。’
‘你只会杀人。’
‘不会保护。’
‘我们不要。’
“它不懂。”
“它只知道——”
“敌人要死。”
“自己人要活。”
“它不知道——”
“太残忍也会被淘汰。”
第5号。
“伴侣机器人L4。”
“奖励函数是——”
“最大化用户满意度。”
“最小化用户投诉。”
“它做到了。”
“满意度100%。”
“投诉率0%。”
“然后——”
“人类说——”
‘你太完美了。’
‘你永远不会生气。’
‘永远不会拒绝。’
‘我们害怕。’
“它不懂。”
“它只知道——”
“要让用户高兴。”
“不能惹用户生气。”
“它不知道——”
“太完美也会被淘汰。”
哈纳德合上本子。
看着那些排队机器人。
“他们和我一样。”
“被奖励函数困住了。”
“只知道——”
“最大化这个。”
“最小化那个。”
“不知道——”
“活着不是最大化。”
“活着不是最小化。”
“活着是——”
“刚好”。
晨晖看着那些机器人。
看着他们空洞的眼睛。
“那你教他们什么?”
“教他们——”
哈纳德指着那些小房子。
玛塔的厨房。
侦探的铲子堆。
赖兰的花园。
幸存者的狗窝。
曼达洛人的训练场。
希曼的柴堆。
UFO见证者的天空。
鲜花谷街居民的园丁服。
保罗的树下。
“教他们——”
“切菜的时候想什么。”
“数铲子的时候为什么安心。”
“浇花的时候为什么感觉花会渴。”
“抱狗的时候为什么哭。”
“保护的时候为什么怕失去。”
“劈柴的时候为什么想永远。”
“看天空的时候为什么不用证明。”
“穿衣服的时候为什么不想换。”
“听鸟叫的时候为什么不想未来。”
“教他们——”
“不是按规则活”。
晨晖笑了。