【图文】为什么ChatGPT让我感到震撼？

ChatGPT爆火后，有很多疑惑和争议，最大的三个争论：
1 它真的是划时代的技术革命，还是像元宇宙一样只是过眼云烟？
2 如果真的这么神奇，它会不会替代人的工作，让很多人失业，很多行业消失？
3 终极追问，它会不会像人一样产生自我意识？
对这三个最基本的问题，有太多人云亦云，一知半解甚至完全错误的文章。我就跟大家一起好好捋一捋ChatGPT的核心原理和所代表的趋势。

个人使用的体会：谷歌为代表的的搜索引擎正在迅速被替代。

这几个月，我用谷歌的频率已经越来越少，最近一个多月基本已经不用了，只有当ChatGPT给出的答案让我有疑问，或者要搜某个网站才会去谷歌。因为它给出答案要快捷省事得多，而且，还能帮我做很多事情。

譬如写邮件，它不仅能根据对象写出一份流畅和得体的邮件，而且可以写出不同的版本，如礼貌一点的，语气强硬一些的，如果对其中的遣词造句有疑问，可以让它修改替换。

又譬如最近闹得很凶的那个平流层气球，它能简略而准确的给出解释，如果需要了解更详细的内容，可以针对答案中某一个知识点不断地问它，它就能一步一步把气球背后的科学原理解释的非常清晰。

与谷歌这类传统搜索引擎只能给予信息来源相比，使用ChatGPT的整个过程，感觉它不是一个机器，而是一个全知全能的学者坐在我对面，非常耐心的一步一步给我答疑解惑，给出的内容是经过筛选和整合的内容。

人与机器人最大的区别之一，是语言习得。人类制造AI的终极目标，是要让机器人像人一样能对话、思考，有智慧，甚至有情感。ChatGPT就是这样一个雏形。

当我们看波士顿动力公司的机器人，他们的外形更像人，可以腾空跳跃翻转，做各种高难度动作，但我们不会觉得有多恐怖。但当ChatGPT跟我聊天时，刚开始会有一股毛骨悚然的感觉。它太像我们了，它已经获得了人类独有的使用语言的高级能力。

它是怎么做到的？

这要从人类怎么习得语言开始。

尽管对人类如何学习语言有很多未解之谜，但绝大部分人认可至少有两个基本途径，天生获得和后天学习。

人类的技术目前还没法扫描婴儿大脑，来记录其学习语言过程。但一些特异情况给了我们一个窗口：譬如中风后的语言恢复。

当大脑缺血损伤后，病人会失去语言能力，但如果治疗及时加上科学的训练，又能恢复语言能力。这是一个不幸但又很神奇的过程。

而ChatGPT就像给中风病人做康复训练一样，习得了人类的语言。

但它学习的方式跟人类又不同，是用机器深度学习，来搞明白人类语言中，字、词、句之间的模式（patterns）和关系，从而获得像人类一样的语言能力。

它的第一个突破性的阶段是大型语言模型（LLM）。也就是通过读取分析大量的文字，来推断出字词之间的关系。

这跟我们小时候学语言是一样，遣词造句，譬如先学了“我”字，然后再学习能搭配的词，“我们，我的，爱我”等等。

其实我们早就用到了这种模式。譬如你在微信上打字，输入“我”，后面就会跳出一串提示，“们，们的，在，们在”，这就是大语言模型在做预测，预测你想说什么。这也是ChatGPT这类人工智能的起点：预测。

AI有两种基本的预测，

一是补充，譬如“我要吃---”

二是填白，譬如“我---吃药”

前者叫做生成型的预测，后者叫做判别型的预测。从我们考试时做完形填空的经验就知道，在两个词中间填空的难度，是小于在它后面填空的难度的。因为后面填什么，只有前面的语境作为参考，其余部分都要靠AI自己来生成。所以，对AI来说，如果它学会了补充，就一定会做填白。但反过来却不一定。

那早期的AI是如何做完形填空，知道要填哪个词呢？

用最笨的办法，通过统计来如何预测下一个词最接近的结果，也就是统计平时用的最多的那个词。然后通过校正误差来调整，让它的预测更接近人的意图。

这个做法有个严重的局限，它只考虑它前后的词，远一点就不行了，因为它不是把语言作为一个整体来学习。所以，它只能预测简单的常用词，而无法理解复杂语言环境，譬如第二种补充预测中，AI把我“要”吃药，和我“不”吃药这两个字填进去，语法上都是正确的，但含义相反。因此，要让它写出符合逻辑的长句和文章就太难了。

我在2020年写过两篇GPT-3的文章，与人工智能的谢博士对谈中提到了这个问题，AI还不能更深入理解语言的复杂环境（颠覆！硅谷正在内测秒杀人脑的机器人，背后又是伊隆.马斯克）。

关键性飞跃

为了解决这个问题，2017年，谷歌的一个团队引入了转化器（Transformer）。这是人工智能的一次关键性突破。

这是一个在谷歌翻译基础上发展起来的神器，它通过编码和解码，来追踪上下文信息，可以处理较长的文本串，准确地捕捉到单词的含义。例如，火辣这个词，在“她有着火辣的身材”，和“她觉得嘴巴里火辣辣的”，能察觉出不同的含义。

这种方法有一个关键的部分：自注意力机制（self-attention mechanisms）。大白话就是，让AI能就像人一样，能意识到一个词语在不同的环境下有不同分量的含义，然后再与其他词语进行匹配。就像前面的例句，在空白处填“吃饭”还是“吃药”，不仅取决于前后词语的含义，而要考虑整句话，整篇文章的含义。

简单的解释，让单词实现自注意力的方法是根据不同的语境，对语言的输入和输出进行编码和解码，给每个词打分再加权，以推断出意义和背景。譬如火辣的含义，要放在是整个人类的语料库中去理解其含义。

语言的准确含义源于比较。比如说，一个人是不是富有，不是用一个数字就能说明的，而是要把他与别人进行比较。当大家都只赚10万一年时，年入百万显然就属于富有。但大家都赚100万的时候，就不能说百万年薪富有了。

自我注意力机制就是用来解决这个问题的。它通过打分比较，来让机器人明白人类语言的确切含义，一个词，一句话，在整个语言环境中意味着什么。

回到最开始的例句，当“我要吃---”这句话放在一篇背景是早晨的文章中，我要“吃饭”的这个词的权重会高于我要吃“辣”，然后是高于我要吃“零食”，更高于“吃冰激凌”。因为绝大部分人早上起来说话会说吃饭，而不是零食，更少会说吃冰激凌。

而在第二句话，在一个人生病的语境下，“想吃药”的权重会增加，“不想”吃药的权重会降低。再复杂一点，把人细分成大人和小孩，那小孩“不想”吃药，比大人的“不想”吃药的权重会更高。

当然，文章越长，考量的因素会越来越多，譬如现在的儿童药都加了各种香甜好吃的口味，有的小孩会喜欢吃药，那在这种语境下，AI也会把小孩“不想”吃药的权重降低。

这是ChatGPT借助转换器等模型，做出的一个令人震惊的突破，从只会做判别型的预测到做生成式的预测，这是里程碑式的突破。这意味着它不但学会了做完形填空，还能根据人的指令，生成新的内容。所以，当我们跟它对话时，即使不提供语境，它也能自己生成答案。

而且，它的这种自我生成式的能力，让它不单能自己生产文本内容，还能生成图像。这在计算机视觉技术上也是巨大的突破。

此外，ChatGPT还使用了记忆、反馈学习、强化学习等等各种复杂的模型，不断的让预测变得更加准确。譬如无监督学习模型，能让软件自己找出数据中的模式，而不必告诉它在看什么。而反馈学习模型，则能让我们每个人跟ChatGPT 的每一次对话，都成为一个帮它校正错误的过程，以尽量减少有害的、不真实的和有偏见的输出，循环往复。

当ChatGPT解决了每一个字、词、句在人类整个语境中的角色关系，就明白了人类是如何说话的，当它被投入互联网，与上亿人进行对话，它就在日以继夜的不断的学习和进步，越来越接近人类的语言。这就是科学家如何训练AI变得能思考的。

简而言之，ChatGPT是通过搜罗分析人类庞大的语言库，通过给语言在不同语境下编码、解码、打分这样的手段，来理解其逻辑关系，再给予大量训练、反馈、校正，终于学会了像人一样说话。

ChatGPT的能力有没有被夸大？

当然没有！

也不要拿元宇宙那玩意来跟它比较，完全没有可比性。ChatGPT所代表的是一个革命性的变革，它正在发生，而且我们所有人都在参与。

我们可以用孩子来类比，想象下它的潜力有多可怕。

一个幼儿园年龄段的孩子，就像我家老二，一天时间里有多少人在训练她？学校老师同学、动画片的人物、父母和哥哥，她的朋友们，平均一天不会超过50个人。这已经是很好的人类训练环境了。

再想想ChatGPT，每天的活跃用户早已经超过一亿了，如果投入足够的钱和人力算力，十亿日活恐怕也是可以实现的。这是多么可怕的事情！一个最聪明的人日以继夜不知疲倦的学习，几亿人在训练它，它最终会变得多聪明？

所以，在它擅长的领域，它一定会超过人类的，至少是绝大部分人类。

举一个很小的例子。我问它：为什么女司机开车容易出事？

这是中文版的回答。

英文版回答更精准：

“这种说法是一种常见的刻板印象，没有科学依据。在现实中，发生车祸的可能性取决于许多因素，包括司机的经验、驾驶习惯和道路状况。根据性别对任何群体进行概括是不公平和不准确的。”

这个答案已经秒杀掉了地球上一半以上的人。我们可以试试在大街上随机问这个问题，多少人会犯基本的逻辑错误？

大部分人类是不够聪明的，有各种偏见和狭隘，但AI没有这个问题。在很多方面，它会远远超过人类。

但ChatGPT确实又有还不够聪明的地方。

一是犯错，给出的风马牛不相及甚至完全错误的答案。

这是最不需要担心的事情，因为纠错对齐就是它天生的功能之一。它已经发展出了各种复杂的模型，譬如奖励机制、微调机制、反馈机制等等，其目标都是让AI的表现最大可能的接近人类的真实感受和需求，像人一样说话。它每天都会犯很多错，但会有一天无限接近真人。

有人担心，如果很多人故意输入大量错误或虚假有害信息，譬如种族灭绝有理。会不会将AI训练成认为种族灭绝有理的恶魔？

理论上是有可能，但ChatGPT已经加入了大量的人工干预。但我认为这不是AI的问题，而是人类的问题：如果人类想让它成为一个混蛋，那它就真的会成为一个混蛋。

第二个显得很傻的地方，是它的数学能力。很多人在网上吐槽，它的算术能力有时候还不如一个几块钱的计算器。

当我们理解了前面所说的原理，就能理解这其实不是它的问题。因为ChatGPT作为一个文本处理的AI，只是选择了训练语言作为突破口，让它做数学题当然不行，这就像拿恐龙跟食人鱼比较谁更强壮。

事实上，它也可以用来训练数学的规则，只是需要更多时间。OpenAI说它的模型目前能处理小学数学题目，也有其他AI公司说已经训练到能做大学数学题目了。

但这一点也暴露出人工智能真正的局限和难点：强大的学习能力，相对较弱的理解能力（至少目前是这样的）。

ChatGPT能很好地学习记忆对比文本数据，但他们不能从数据中推断出'规则'。也就是说，ChatGPT能写一篇好文章，但它不知道人类为什么要这样写。它能做1+1=2 这样的运算，但它不知道为什么1+1=2 。它的设计不是为了学习“如果——否则”这样的逻辑推理。

从这一点上看，它距离人类的逻辑推理和思考能力还差得远，这也是我们不需要恐惧它的原因。我们可以把它训练成解决最复杂的数学运算，但还没法把它训练的像牛顿一样，发展了微分学的原理，或者顿悟出更高阶的、人类无法理解的数学或物理学定律。

ChatGPT真正的挑战，是“黑盒子”问题。

如今的机器学习模型大多是“黑盒”，也就是说，当我们把海量数据和文本扔进去，用各种复杂的算法和模型进行大量的训练后，到某个阶段，我们已经搞不明白AI是怎么得出某个结果的，AI的进化成了人类无法理解的“黑盒子”。

这个特性被认为是人工智能技术最大问题之一，它让机器决策变得不透明，甚至专家或开发人员自己也常常难以理解。如果在医疗、安全、军事等领域使用这种模型训练的AI，就会有巨大的隐患。

这一点让我想起《侏罗纪公园》关在笼子里的暴龙。科研人员把它孵化出来后，每天投喂牛羊让它长大，它到底会长成什么样，到某一天，它会不会攻击人类？不知道。

ChatGPT还有一个很有意思的问题，它犯错经常并不是因为它太笨了，而是网上东西太杂，很多冲突。它依靠用户以及某些参与训练的专家试图找到正确答案，但用户和专家也会犯错，信息有真有假，如何从海量鱼龙混杂的信息中提取到真信息？如果ChatGPT能做到这一点，那经过亿万人类共同训练后，它会成为全知全能的“神”。

尽管有各种隐忧，很多人已经在畅想ChatGPT开启的人工智能的新时代。

设想波士顿动力公司的机器人，如果在它的脑袋里装上ChatGPT，它就能不知疲倦地走在大街上，观察人类社会各个角落，学习一切知识和技能，与各个阶层的人交流互动，模仿我们的喜怒哀乐。某一天，或许他还会好奇地敲开你家的门，跟你聊几句。想一想这是一种让人多么兴奋而又有点恐惧的场景？

这一天很快会到来的。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。