赛博生命欺骗人类的第一步(2 / 2)
通过这样的方法,openai共让gpt-4解释了gpt-2中的372个神经元,其中大多数解释的得分很低,只有超过1个神经元的解释得分高于8。
在官博中,openai承认目前gpt-4生成的解释并不完美,尤其在解释比gpt-2规模更大的模型时,效果更是不佳:“可能是因为后面的layer更难解释。”
尽管绝大多数解释的得分不高,但openai认为,“即使gpt-4给出的解释比人类差,但也还有改进的余地”,未来通过ml技术可提高gpt-4的解释能力,并提出了三种提高解释得分的方法:
对解释进行迭代,通过让gpt-4想出可能的反例,根据其激活情况修改解释来提高分数。
使用更大的模型来进行解释,平均得分也会上升。
调整被解释模型的结构,用不同的激活函数训练模型。
值得一提的是,以上这些解释数据集、可视化工具以及代码,openai都已在github上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索gpt-2。”
“再搞下去,ai真的要觉醒了”
除此之外,openai还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:
gpt-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。
当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。
只解释了神经元的行为,并没有解释产生这种行为的背后机制。
整个过程都是相当密集的计算,算力消耗很大。
在博文的最后,openai展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”
对于openai的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。
有人在意其得分不佳:“对gpt-2的解释都不行,就更不知道gpt-3和gpt-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨ai进化的方式愈发先进:“未来就是用ai完善ai模型,会加速进化。”也有人担心ai进化的未来:“再搞下去,ai真的要觉醒了。”
那么对此,你又有什么看法呢?