2022新智者大会｜王晓阳：自动获取知识是人工智能新阶段的重要体现

　　7月27日,由中国互联网协会指导、微博和新浪新闻主办、主题为“融合生态价值共创”的2022新智者大会召开。作为人工智能领域的行业峰会,本次大会汇聚20余位人工智能及元宇宙相关领域的顶级科学家、企业家及学者。复旦大学计算机科学技术学院教授、CCF/CAAI Fellow王晓阳应邀出席大会,以《新一代人工智能的加速效应》为题发表了主题演讲,向观众们介绍了新一代人工智能的特性以及人工智能的加速效应。

　　复旦大学计算机科学技术学院教授,CCF/CAAI Fellow王晓阳做主题演讲

　　以下为王晓阳先生演讲实录,内容经编辑略有删减:

　　大家好,很高兴今天能够来到新浪的新智者大会。今天很有幸跟大家讲讲我的一些看法,今天我讲的题目叫《新一代人工智能的加速效应》,我希望从这几个方面跟大家分享一下我最近的一些想法。

　　首先,我想从新一代人工智能的特性,从我的理解来稍微地讲一下,之后讲它的加速的效应,人工智能的加速效应到底体现在哪里。

　　之后我想专注一下,因为我是做计算机的,信息系统的构建或者信息系统本身是我们研究的一个对象。我们在咱们的新媒体、咱们的所有的目前很多媒体的传播当中,其实用到了非常多的信息系统。在这儿,我希望提一下信息系统在咱们人工智能的加速效应下,它的一种新的构建的方法论。

　　首先是这样,咱们也都知道,老生常谈,知识就是力量,我们知识是人类进步的一大源泉。知识目前的状况是知识不仅以书本的形式出现。在计算机出现之前,我们的知识都是从口口相传到书本的记录,这个是很重要的一个方式。

　　现在的知识不仅是以书本的形式出现了,知识是以数字化,数字的模型化、编码化、执行的自动化、规模化来展现在我们社会当中。咱们传统上的体现就在于计算机的软硬件上,这个是非常明显的一个进步。也就是说我们知识有了一种新的形态,这是一个很大的转变。

　　在咱们新的一代人工智能的情况下面,知识的模型、知识的传播,以及知识的使用等等,这个已经在一个非常新的状态下面进行。

　　我们有新的知识模型的出现,我们的知识模型不再是之前的那种计算机代码的形式,而以比方说神经网络这样的一种编码。

　　它的另外一个很大的改变,就是所谓的新知识的来源这样一个不同。之前咱们新的知识大部分基本上所有都是人类去总结、去编写,不管是以前书本上面也好,我们把它——知识总结出来写在书里,传给下一代,这是一种做法。还有就是咱们计算机的过程当中,咱们人类把知识写成代码,让计算机去执行。在我们新的一代人工智能知识的来源就改变了。

　　从人类的设计转变成了一个自动学习的过程,这个使得我们新一代的人工智能它的特点就非常明显。

　　原来最早的时候人类是知识的积累者、知识的传播者,以及知识的执行者。后来有了计算机的发展,使人类在这个过程当中可以把知识交给机器,交给计算机,由计算机去执行。

　　而目前一种发展的方式,是说知识的积累也不需要人了,人从整个知识的这样一个闭环里面,可以撤出,从机器当中自己去总结知识,形成编码,然后自动地执行,这是咱们目前人工智能一个新阶段的重要体现。

　　这个跟之前几次人工智能的风波、几次的浪潮不太一样,很有特色。目前重点的手段,咱们是向数据要知识,知识哪儿来?机器可以像科幻一样,这个机器人到处走走,它就把知识给积累起来了,但是目前可能还没有做到这一点。目前重要的手段是向数据要知识,就是人把这个数据交给机器,机器在数据里面去总结出知识来,把这个知识变成编码等等。

　　知识数据的重要性,以及存储介质的价格持续的下降。

　　以及我们各种各样新的通信的形态,互联网、物联网等等,使得我们数据的积累达到了很大的程度,使得我们目前这一阶段的人工智能能够做到向数据要知识这样一个过程。

　　成功案例也很多,我们其实也是老生常谈了,大家也知道AlphaGo是一个典型的向数据要知识的做法。我们还有很成功的,像自然语言理解、机器翻译、图像识别等等,都是因为我们有了大量的数据的积累,使得我们整个的人工智能能够形成这样一个闭环。

　　现在我们其实人类可能也搞不清楚图像是怎么识别的,就是这个人过来能认得出这是谁。

　　但是机器能够从大量的数据里面总结出来这样的一些知识,然后把它编成一种代码。这个代码可能是一个像我刚才说的,用神经网络的方式来编码,编了之后还能去做所谓的推理,能够推出来眼前这个人是不是某某某,这样的一个做法。所以整个的环路,都由人工智能来做。

　　自动驾驶目前是一个好像进展比较慢,但是我相信在不断收集数据之后,向数据进行学习,我们的人工智能完全能够做到我们所谓的自动驾驶这样一种方式。所以成功的案例非常地多,整个使得人工智能给了我们一个美好的向往。

　　那么它的加速效应也就是我刚才讲的这些,咱们传统的信息系统里面,以代码的形式来进行知识的编码。我们计算机其实弄到最后不复杂,都是一些If and else,就是如果这样就做这个,如果那样就做那个,这种一连串很复杂的纵横交错的组合,形成了我们知识的一种编码,这就是我们写的代码,我们写的计算机的Code虽然非常多,但是最终的形态还是非常简单的。但是这种简单的代码,就能够执行很复杂的一些计算、各种各样的输入输出。

　　我们传统的计算机代码是由人类的程序员做的,我们的工具是我们的编程语言。

　　我们最早是简单的很低层的代码,之后我们的编程语言越来越高级,能够讲几句话计算机可以执行很复杂的指令。但是无论如何,它还是一种人类来编码的这样一个过程。

　　这样的话这个代码能不能交给人工智能去构建呢?能不能学习呢?这个肯定是可能的。这个加速其实我们已经看到了,我刚才给的例子里面,我们已经看出来人工智能应该是可以替代整个知识的获取,以及编码等等这些功能。虽然可能它的编码目前不是以我们人类编码的这种形式,但是它以它独特的形态,比方说神经网络这样的形态来进行工作。

　　所以新一代人工智能它的加速其实就是在这儿,就是把很慢的这样一个人,把它从知识的积累到知识的编码、知识的执行等等,都把人给去除了。这样的话,可以大大地加快速度,能力也大大地提升。

　　也就是说新一代的人工智能给咱们知识领域带来这样一个重大改变,就是知识得以自动地获取。我们需要的所谓知识原来是比较慢,人类还是一个慢动作,从计算机的角度来看它是一个慢动作的东西。世界上事物在不断地变化,知识其实应该随着事态的变化来更新。

　　在新一代的人工智能的情况下,我们可以做到更深层的、更及时的来调整我们的知识认识,把这个编码经常变。不像我们编好一个程序之后,要改变的话是非常难的一件事,如果说把整个的环路能够由计算机来完成,这个就是非常快速,能够使得我们知识随事态来实时的做调整。

　　最重要的,当然我们之前也都有,这个编码了之后,我们的知识可以直接加以自动的应用,这是计算机开始以来就有这样的一个能力。加速使得我们这三个阶段、三个层面上都能够自动地来做。

　　使得我们新的一代知识方面的应用、知识的工作,能够大大地加快,它的能力大大地加强。所以咱们今天的主题,也就是要加快对我们人工智能形态的改变。

　　新媒体其实是最早的人工智能的一个成功的案例,搜索系统,为什么Google能够很成功?其实就是在于它自己自动的搜集、学习、匹配、排序等等。不需要人了,Google一出来就把Yahoo给打败,为什么呢?Yahoo还是靠着人来收集的,那就是典型的之前的用人工来编码的一种计算机系统。

　　Google的代替,就是把人工编码给替代掉了。

　　这样的话整个的发展速度就非常地快。这是一个非常成功的案例,这也是咱们最早的一个在数据量巨大的情况下面,能够发展出一种新型的人工智能的东西。

　　我们后面发展出来的很多,像各种各样的推荐系统,咱们微博也有自己的推荐系统,热搜,像头条的抖音等等,他们都是使用了人工智能的手段,把整个的闭环都由人工智能来推进,使得我们整个的发展非常地快。

　　这种我把它叫做自动的知识系统,它不断地收集数据,抽取组织知识,形成一个反馈。

　　这个是我们目前的一个新的状态,它所需要的技术当然就是大数据、深度学习、云计算等等,这些技术手段来推进我们人工智能这样一个快速的发展。

　　另外一个案例是在风电预测方面,不光是新媒体也受益咱们事态的推进,像实业上面,这里有一个比较简单的例子风电预测。风电需要预测它,最好是每时每刻都知道,下一阶段每时每刻它能发多少电,这个对整个电网的调度非常地有用、非常关键。你这个风电能不能被用到,其实是一个很关键的事。

　　这个风电的预测设计了非常多,以前如果要做编码的话,还是相对比较难和比较复杂的系统,而且它应该是要随着机器不断地老化,机器的效率模型也应该是不断地改变。天气,Local的天气,就是比较局部风力的预测,其实也是瞬息万变,这个也是一直在不断地改进它自己的一些预测的方式。

　　所以这里其实是一个很好的人工智能应用的场景,它的风电的效率的模型建模可以不断地进行对局部天气的预报,尤其是风力的预报,能够不断地更新,使得我们整个现场的风电的预测能够顺利地进行。

　　这就是要比我们之前的那种进步快很多,因为这个模型由于大量数据的反馈,使得我们这个模型能够不断地更新、学习,跟着事态来变化。这样使得我们整个风电的预测能够更准确,能够在整个的场景里面有效地进行。

　　所以不仅是新媒体,在各种各样的系统里面,人工智能的应用其实都可以见到这样一个足迹。

　　回到信息系统,信息系统就是我们新媒体,我们各种各样的现代社会基本上都是建立在一个信息系统上面。信息系统有很多,我这里举几个例子。

　　比方说机器学习本身,人工智能一个最基本的能力就是机器学习。

　　机器学习需要一个系统。机器学习系统本身也是一个我们编码的过程,它本身就是一个知识的采集,就是怎么进行学习,它是比机器学习本身再高一层的,怎么进行学习这样一件事其实也是可以由人工智能来帮助我们进行。数据库系统就是存储数据的,软件工程本身怎么编码这个事也可以由人工智能来帮助。那计算机网络就更不谈,计算机网络是一个很复杂的系统,在人工智能这样的手段下面能够做的更好,网络空间安全也是。

　　人工智能在逐渐地侵入到各个领域当中,这一点和前面的我们说人工智能已经发展了有60年了。

　　这前面的60年只有在最近的5年、10年当中,我们才看到大规模的人工智能的手段进入到我们很多的计算机本身、信息系统本身的领域当中,这是一个很大的改变,这也是使得我们整个技术的更新迭代、技术的发展能够非常快,可以加速的发展。这也是一个很有意思的现象,我们把人工智能用到我们做人工智能的那些系统里边去了,这也是一个新的现象。

　　我们以计算机网络为例,来看看它到底是怎么弄的。因为计算机网络其实是一个数据的高速公路系统,可以这样说。那么所谓的SDN,现在比较流行的SDN,就是所谓的软件定义的网络,它形成了一个很灵活的网络的底座。

　　你可以把它看成是一个活的复杂系统,你可以随便地搭建,去重构它的网络的这种连接。

　　这个时候人工智能在这里就可以发挥巨大的作用,网络要适应Traffic,就是你这个数据怎么传的,怎么去适应它。反过头来,这个Traffic要去适应网络,数据怎么传、从哪里走。另外就是网络的设计、网络的维护、网络的监控等等,以前我们如果完全用人工去做编码的话,有很多的情况我们是没法预测、没法很快地去适应(adapt),这样的话使得我们这个网络的效率不会达到最高。

　　现在的这个手段当然也是传统手段和现代手段结合的一种方法,但是现代的人工智能所带来很多的遐想。可以说我们在计算机网络的设计当中,在这个系统当中,融入我们的AI,就可能带来非常多的好处,我这里就不再赘述,这是计算机网络,只是一个例子。

　　可以看的出来,在我们的计算机系统里面,在复杂的系统当中,由于我们AI的出现,我们AI技术的体现,可以使得我们整个的技术发展的非常快。

　　如果这样看来,我们现在的信息系统,包括我们新媒体用到的很多信息系统当中。我们在构建这个信息系统的时候,在新一代AI的条件下面,我们怎么来做?有没有所谓新的方法论?这个是我想跟各位探讨的。

　　目前的人工智能,至少是目前吧,它是在复杂环境中自动获取知识的能力非常地强。但是它的准确性,只能是一个所谓的统计概念。我们理想的信息系统不太一样,我们理想的信息系统是可解释性要很高,我们是严格按照某种逻辑性来做我们的工作的。

　　但是我们还需要在不确定的环境下面要适应环境,这里尤其是可解释性和严格逻辑性方面,与我们现代的人工智能有点统计意义的做法,有一定的矛盾。

　　我们怎么样在这样的情况下面,又能保证我们理想的信息系统的构建,又能够利用到大量的人工智能的这种技术呢?

　　这儿是不是可以提出一种新的所谓的方法论,能不能利用AI,利用人工智能提供的统计意义上的准确知识,为严格可解释的逻辑执行所谓的保驾护航。也就是说它作为一个支撑的,或者是作为某种辅助。就是作为两条腿走路,一方面是有人工智能的支撑,一方面是严格逻辑的支撑,这样子的话使得我们在整个的信息系统里边能够达到更优。

　　这个其实我们在信息系统的人工智能应用当中看到很多这样的例子,它就是提供这种所谓的保驾护航,可以看作是我们提供这样环境的知识,这是一种看法,不一定完全,但是至少它是可以提供某种环境的知识,为严格的逻辑在所谓限定的范围内,以可解释的形式呈现。

　　就是说因为我们知道如果用严格的逻辑来推导所有的情况,我们的计算量就会承受不了,不管你有多大的计算机,都是不太可能执行。但是如果我们由人工智能学习的这种统计意义上的这些知识,能够提供一个所谓的环境,一个环境知识,这样就可以做到我们更有效的工作。

　　比方说推荐的文章、产品等等,其实我们可以两个加在一起,也就是说我们推荐不光是一个统计意义上的推荐,而且还可以做一些严格逻辑上面的推理。这样的话,使得我们整个推荐的工作能够更智能、更贴切,而且它的可解释性可能会更强一些。

　　比方说Network里面的Routing,你如果说把所有的可能性都试一遍再去推荐的话,那是不可能的,太多。但是我们如果能够有一种人工智能的方法去做一些学习,能够做一些所谓的统计意义上的一个总结的话,可能会有很大的帮助,这也是我们正在做的一些工作。

　　这样的话我们可以想像出来,我刚才说是两条腿,一个新的方法论。这里使得我联想起来我们谈的比较多的所谓的人脑,这本书比较有名,讲到了人脑的系统一和系统二的问题。粗略地讲,系统一讲的是反应,是一个非常快速的条件反射的系统,系统二指的是经过了严密逻辑推理的系统。

　　据丹尼尔·卡尼曼(Daniel Kahneman)来说,我们人脑是这两个系统协作的一个模式。

　　这样的话,使得我们既能够在很多的情况下面快速的反应,也能够在其他的情况下面做到严格逻辑的推断这样的一些工作。

　　这个其实就跟刚才我讲的所谓的人工智能引入到我们的系统当中,它的作用我认为可以这样考虑,也就是说把人工智能考虑成系统一,我们严格的逻辑在后面是叫系统二,这样合作起来能够达到一个更优的系统。

　　这里有很多的挑战,现在其实还不是太清楚到底是怎么来进行。比方说力度的挑战,我们系统哪个力度引入系统一,这个确实不太容易。人脑是已经形成的一个系统,我们在做一个系统的时候,我们怎么样引入?

　　我们原来的系统基本上都是要么是系统一,就是人工智能的就结束了,要么就是系统二的,那么系统一和系统二怎么结合在一起,这是一个非常有意思的挑战。力度的挑战、数据的挑战、模型的挑战,系统到底应该长啥样,就是我们现在的神经网络还是什么?效率的挑战、整合的挑战等等,很多的挑战使得这两个系统能够合到一起。使得我们这种目前所用的系统,包括新媒体所用的各类的系统,能够在这样的一个环境下面更快地推进我们的进步。

　　这个就是我想跟大家探索这种新的人工智能的特性下面,因为这个知识的自动获取,这是一个非常大的飞跃。

　　使得我们整个的信息系统能够自己形成一个闭环,使它的发展速度会非常快,自动地采集、自动地执行、自行地迭代,这样加速效应非常高。

　　在这种情况下面,我们的信息系统的构建,是不是要有一种新的方法?我们也看到这种新的方法在不断地呈现,这个新的方法我们有没有一个新的方法论?这个新的方法论是不是就是系统一、系统二结合这样一个新的方法论,来进行我们人工智能的系统,或者我们下一代的新媒体系统也好,通信系统也好,计算系统也好等等,能不能用这样的方法。

　　总之,人工智能还有很大的进步空间,另外一个口号就是系统二在整个的进步当中,好像让位给了系统一。

　　但是我觉得系统二的回归是我们下一代的人工智能总体发展的必要的步骤。

　　我今天就跟大家分享这些,谢谢大家!

　　<结束>

【责任编辑：徐子茗】