人工智能:科幻概念与现实

最近随着 DeepSeek的流行,AI这个概念再次甚嚣尘上。我甚至感觉有点恍惚,大家现在说的「AI」,到底是什么?怎么跟我的理解有点不一样?

作为「AI」的重度用户,也是付费用户,我觉得有必要和它探讨一下这个话题,经过简单的梳理,我发现有必要行文一篇,来记录一下在这条路径上的关键节点,以及误解何在。

从AI谈起

Artificial Intelligence,顾名思义,也就是人工智能。我想最普及的人工智能概念是一个科幻概念,也就是人类使用各种材料和器械制造出来的,能够像自然人类一样行动和交流的东西。比如《三体》里的智子,和钢铁侠电影里的数字管家Jarvis。但是这个东西目前来看依然还是科幻,人类科技的边界仍在探索低它至少一个级别的问题:如何让人造物像自然人一样解决一项特定的问题。这应该是具有可行性的人工智能了。事实上,我们在这方面已经取得了非常了不起的突破。

最让人熟知的应该是2016年Google的围棋智能AlphaGo战胜了人类棋手李世乭。而在那之前,有IBM的深蓝在国际象棋领域战胜人类,在那之后有在游戏中(比如星际争霸2和Dota 2)达到甚至超越了普通玩家的水平的智能。除此之外,在静态图片和视频的识别与生成、机械臂抓取任务等方面,这些智能算法的水平也都达到了令人惊讶的程度。

但它们往往不被认为是「人工智能」。这主要是因为在和人交流这个方面,暂且没有能够接近自然人类的智能算法。这个领域通常叫做自然语言处理。那个在高速公路上司机试图用带口音的普通话让安吉星打电话最终气急败坏的视频是这一论断一个搞笑又生动的注脚。

所以,当自然语言处理这个领域取得了巨大突破的时候,人类突然发现,机器(电脑)能听懂自己的话了,和人沟通起来真的有接近真人的流畅和自然了。这是一个并不出人意料的突破,但却是一个影响力被严重低估的突破。因为这一领域使得人机之间第一次拥有了自然语言的接口,计算机可以从人类的语言中理解指令,并在后台调用相关领域的智能算法来解决具体的问题,那么从观感上来看,就像是一个能够和人交流、理解人的指令,并能以接近人类的水平完成一些任务的「人工智能」。

这里面的关键就是「听懂人的语言」,包括说出口的声音,也包括屏幕上的文字。这正是上面提到的误解的来源。不是每个人都有和计算机沟通的能力,哪怕是图形界面,对许多人来说学习曲线也是陡峭的。但是大部分人都有说话和打字的能力,如果计算机(手机)可以理解他们说的话,看懂他们打的字,并给出回应,他们会理所当然地觉得这就是「人工智能」。但这仅仅只是一个错觉。当前的各种「AI」,都只是基于自然语言处理领域的突破而带来的幻觉。包括ChatGPT和DeepSeek在内的各种商业产品,尽管和人的交互已经非常自然,但离上面提到的那个人工智能的科幻概念依然很遥远。

如果那个终极的科幻概念中的人工智能需要二进制的骨骼、肌肉、血液、大脑和皮肤,那么在一个对普通人友好的表皮诞生之前,大家恐怕并不会真的认为它是个「人」。而现在的大语言模型,正是那个让人感到亲切的「皮肤」。现在在各个领域可以有较高的解决问题的能力的智能,更像是人的某些反射,而不是经过大脑处理的高级认知任务。看似能够理解语言和文字,能够看懂图片和视频,能够下棋、打游戏,但其实更像是「视而不见」、「听而不闻」。这些智能对任务本身是没有概念的。
下围棋的AlphaGo并不知道围棋是什么,更谈不上赋予围棋什么意义,也不可能将其视作一种「爱好」或者「消遣」,甚至「职业」;ChatGPT也好,DeepSeek也罢,看似学识广博,其实并没有一个「世界模型」,与其说是「智能」,不如说是一个阅读和记忆了一整座图书馆的图书管理员,这个图书馆就是它的训练数据集中所有的人类产出内容(书籍、网络讨论等等),它并没有自己的理解,也没有「意义」。

画皮之下

DeepSeek 并不是那个科幻概念 「AI」

2025年DeepSeek爆火,大家都认为这就是「人工智能」,甚至有人举出自己和它的聊天记录,说「细思极恐」,暗示DeepSeek已经有了自己的「意识」。广大职场人士也纷纷讨论「AI来了」,担心自己的工作被取代。

但是这样的讨论在更大的范围已经发生过了,那个时候话题的主角是ChatGPT。而国内的讨论刚刚发生,纯粹只是因为我们在过去的两年多的时间里无法无障碍免费使用ChatGPT,而DeepSeek来自本土,使用的门槛对绝大部分人来说都极低。

在这样张扬的关于「AI」的讨论之前,DeepSeek流行起来是因为另外的原因。

DeepSeek 开源了它的模型,开源意味着大家都可以去看源代码,去自己证实这家公司声称的任意成就是否属实;而这家公司声称他们的V3模型可以媲美市场上公认的优秀模型ChatGPT-4o,和Llama 3.1,而训练成本仅仅只是后者的1%(6百万美元相比于1亿美元和6亿美元)。这样夸张的成就才是它一开始火爆的原因。而在此之前,尽管阿里巴巴、百度、字节跳动和腾讯这样的科技公司也在开发自己的大语言模型,却始终没有这样的热度,也没有引起如此广泛的讨论。

至此,我们澄清了第一点:AI并没有降临人间,关于AI的讨论早已有之,DeepSeek并没有比其它的大语言模型更接近那个科幻概念。

从大语言模型回溯

DeepSeek属于大语言模型,而大语言模型是为了解决「自然语言处理」这个特定的任务而诞生的机器学习算法模型。它因为训练数据集的庞大和模型自身参数量的庞大而得名。大语言模型的诞生标志着「自然语言处理」领域,计算机算法拥有了接近自然人的任务处理能力。

在这类模型诞生之前,自然语言处理是一个痛点。因为人类没有趁手的工具。那时的算法无法使用如此巨大的训练数据集(据称把人类有史以来的所有出版物和网络发言都涵盖进去了),而模型的表现也远达不到令人满意。只在有限的使用场景内可以见到它们的身影。

那个改变现状的突破叫做「Transformer」,它是Google在2017年提出的新的自然语言处理领域的机器学习模型,它解决了传统方法的一个痛点:在序列数据上顾尾不顾头,记住了后面的,忘记了前面的,想要全记住,那么成本就哗哗上涨,并且效果很差。这篇论文的标题也很有趣:《Attention Is All You Need》。论文引入了「注意力」这个概念和机制,从而使序列输入可以被并行处理,从而避免了顾尾不顾头的场面。基于Transformer模型延伸出的模型在几年后终于把自然语言处理这个任务完成得足够好,从而在世人面前高调登场,仿佛那个神奇的「AI」已然降临人间。这样的模型有很多,比如OpenAI的GPT模型,全称是Generative Pre-trained Transformer,和Google自己的BERT(Bidirectional Encoder Representations from Transformers)。但在业界,如果一直关注这个领域,就会发现从2017年Transformer诞生,到GPT诞生,再经过GPT2、GPT3.5的迭代,这个发展是循序渐进的。公众看到的只是最后被调试到真正能够在处理自然语言方面做到接近自然人类的那个成果。

这种从一个基本方法到一系列实用模型的例子后面还有,不仅仅是在自然语言处理领域。

在基于Transformer的模型之前,这一领域的常见算法是递归神经网络RNN和长短时记忆网络LSTM,可以归类到深度学习的类别中去。

深度学习和它们能胜任的任务

深度学习曾经也是一个火爆的概念。它是神经网络在当代的复活和进化,是机器学习领域继承了传统机器学习算法的精髓的当代「炼丹术」。

神经网络作为一种机器学习模型诞生得比上世纪阿波罗登月还早(两者并没有联系),但因为种种原因(算力不够等等)在70年代之后渐渐式微。很多知名的神经网络结构,比如上面提到的长短时记忆网络LSTM,都是在2000年后诞生的,但那个时候深度学习还没有流行起来。

谁都没想到,用来给电子游戏做图形渲染的显卡竟然用来做并行科学计算如此顺手,从而令人惊讶地促使了神经网络复活并重新流行起来(另一个原因是互联网的迅速发展积累起了足够多的数据)。当算力大幅提升,成本大幅下降(家用游戏显卡也可以很好地运行神经网络模型),各种新颖的网络结构纷纷被创造出来,在各个领域突破了传统算法的瓶颈(比如LSTM对连笔字的识别)。这并不是很古老的事情,这一流行是从2012年开始的(考虑到显卡的进步和互联网的普及,以及相关论文的发表数量)。

最广为人知的神经网络是卷积神经网络CNN及其变种。这一类网络主要用来处理静态图像,残差网络ResNet、DenseNet等等都是在其基础上进行改良而来,从而在图像处理领域使机器获得了媲美自然人的能力。

递归神经网络RNN和长短时记忆网络LSTM则被用来处理序列数据,典型的如自然语言和视频。尽管在自然语言处理方面表现欠佳(让人忍不住骂一句人工智障),但是在视频领域这些深度网络则大放异彩(Transformer的诞生则在此基础上又把机器的表现往前推进了一大步)。

生成-对抗网络则拓展了机器的能力边界,在此之前,并没有人意识到算法可以生成图像,可以修复照片、转换风格。我想起实验室中有一个经典段子,不会Photoshop没关系,师兄可以用Matlab修图;正是对这一能力的调侃。而在当下,很多当时修图、修视频的高端技巧,都可以靠「AI」一键完成了。

还有最关键的,强化学习,尤其是基于深度神经网络的强化学习,让机器在特定领域真正超越了人类,比如上面提到的AlphaGo (2016),还有能在 Dota 2 中与顶级玩家对抗的游戏智能(OpenAI Five, 2017)等等。

但神经网络并不是机器学习的全部,这些网络都是为了解决特定的任务而专门设计、发展而来的。

可解释性与较为传统的机器学习算法

与能直接读图、看视频、听音乐、玩游戏的(深度)神经网络们不同,还有一类算法是用来做「无聊」的打工人工作的:读表格。

表格代表着结构化数据,往往是更接近工作场景而不是生活场景的数据。打工人看表格分析数据,对应的也有相应的机器智能来做这样的事情。并且因为数据是结构化的,行列分明,意义显著,从这样的数据中得出什么结论都是有迹可循的,都可以一步一步追溯到原始数据中去。这样的回溯就是可解释性。

机器学习也不能乱学,你拿着银行流水去问它你的信用卡能不能提高点额度,它今天说行,明天说不行,后天说还要给你往下降点,但是你并没有提交新的流水,这就是瞎扯,你问它为啥,它还支支吾吾说不出来,「我们神经网络算法一向以性能优越为优势……」,再问下去就是「我们有丰富的网络结构,适用于各种不同的任务……」,这高低得给它科长升局长了。

言归正传,尽管神经网络也能用于一部分结构化数据相关的任务,但因为神经网络的黑箱特性,它不能解释自己如何从原始数据中得到这样的结论,在监管要求高的领域(涉及钱和命的领域),往往不会使用神经网络。而且尽管现在算力较为廉价,但部署神经网络模型的成本依然显著(谁的显卡也不是大风刮来的),更传统的模型往往在此时受到青睐。数据量没有那么大,神经网络模型结构过于复杂与数据不匹配也是原因之一。

而谈到可解释性就不得不提决策树了,每一个特征都有其重要性,这一重要性就可以用来解释模型最后的结论。单一的决策树能力是比较弱的,但经过两个重要技巧的加成,决策树反而成了表格类数据Kaggle比赛长期获胜的算法。

这两个技巧就是Bagging(Bootstrap Aggregating)和Boosting。前者指的是训练多个树,再对结果进行组合(比如平均),典型算法是随机森林Random Forest。后者指的是加权训练多个树,通过迭代来逐步纠正上一轮的错误来减少偏差,典型算法是梯度提升决策树GBDT (Gradient Boosting Decision Trees)。

(接上文)就像从 Transformer 到各种GPT,GBDT是一个基本概念,它的工程实现就是大名鼎鼎的XGBoost (eXtreme Gradient Boosting),以及工程上进一步优化的后来者 LightGBM (Light Gradient Boosting Machine)和避免手工、自动更高效处理类别特征的CatBoost(Categorical Boosting)。在具体的业务场景中可以自由选择合适的模型来进行尝试。

到了这个阶段,就很难说算法是不是拥有接近或者超越自然人的某项特定能力了。就像打工人也并不总是能从那些表格和数字中得到足够的信息来做出支持业务继续发展的决策一样。这里已经更接近从数据中挖掘出重要信息的概念了。

机器学习领域的「黑话」

炼丹术

设计和调试神经网络(深度学习)就像炼丹。设置多少卷积层、搞多少shortcut,结构是什么样的,都靠尝试;而可以调试的超参数,比如初始化算法,dropout,比如不同的损失函数,epoch数量、batch数量等等就像炼丹的火候,炼一炉单需要丹炉(显卡),需要时间,结果还不一定令人满意。

特征工程

原始数据不能直接无脑塞进算法模型中去,那是深度学习「炼丹」的做派。传统机器学习更像一种手艺活,对原始数据进行「收集」、「分类」、「提纯」、「抛光」再进模型慢慢打磨。

过拟合

天上的星星散落成点(这是数据),一颗两颗三颗四颗连成线(这是拟合,可能是欠拟合?),看向北面的夜空能看到勺子一样的北斗七星(这是正正好的拟合,就是像勺子呀),但是你硬要把它们牵强附会到一头熊的尾巴上,甚至告诉我那是小熊、那是金牛、那是双子,那就是过拟合了。

交叉验证

无论是神经网络还是更传统一点的机器学习算法,都有许多模型相关的参数需要设置,而如何设置才能在当前的数据集上有较好的表现是不能被预言的,得靠试验。

设置一套可能的参数取值范围,通过网格遍历的方式或随机选取的方式进行搜索,再应用到数据上看模型的效果是实践中的做法。但是模型可能太过强大,而数据量过少,以至于模型把所有的数据都「背诵」下来了,你考试的时候换了题库,它就做不出来了(过拟合),是不行的。所以要把有限的数据分成不同的集合,看一看是不是出现了过拟合的情况,再调整参数设置,甚至更换更简单的模型。这就是交叉验证。

统计学习方法与数学

在经典机器学习算法的背后是统计学习方法。这代表着更浓厚的数学色彩,和更有力的理论支撑(可解释性)。这类方法甚至可以追溯到中学时代学习过的最小二乘法,和它泛化后的「线性回归」,以及逻辑回归(Logistic Regression),和更强调非线性的也更复杂的「支持向量机」。

再继续追溯,就要学习《概率论与数理统计》,《凸优化》等等经典课程了。这些课程的共同点是有很多数学……

「AI」会替代人类让我失业吗?

也许将来会,但现在肯定不会。有限的高能力智能只能解决特定的问题,问题的定义和边界都要足够清晰。但打工人需要的是马科长那样的能力,要能接住虚无缥缈的问题描述、许愿单一般的需求列表,还要能给出「五彩斑斓的黑」这样自相矛盾的解决方案,这是现在的大语言模型绝无可能做到的。打工人如果敢和大语言模型一样追问几句,得到足够的信息后再直截了当给出一句现在做不了,恐怕当月绩效就没了……毕竟打工人主要的工作任务是维系领导的自尊而不是追求真理和解决问题。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注