Please enable Javascript to view the contents

[AI-Talk]从机器学到到自主智能-杨立昆 精简版

 ·  ☕ 13 分钟

今天给大家分享深度学习三巨头之一Yann LeCun 杨立昆 2023年9月29号于德国慕尼黑大学的的演讲,题目是:从机器学习到自主智能。

原视频比较长,一个半小时,光开场介绍就花了20分钟。我把它精简成了20分钟,希望大家喜欢。

杨立昆

杨立昆(Yann LeCun),于1960年出生于法国巴黎,现任Meta的首席AI科学家和纽约大学教授。

杨立昆LeCun与Yoshua Bengio和Geofrey Hinton一起获得了2018年图灵奖 (通常被称为“计算机领域的诺贝尔奖”),以表彰他们在深度学习方面的工作。这三位有时被称为“人工智能之父”和“深度学习之父”。

资料下载

演讲的主题是“从机器学习到自主智能”,这个演讲主题他也在各种大会上多次讲过。这次演讲中,他怕“自主智能”这个名字太吓人,所以把它改成了“目标驱动的AI”,指的是那些具有学习、记忆、推理、计划和常识,并且可操控和安全的AI系统。

我个人觉得是杨立昆AI思想的一个集大成的总结,深入浅出、通俗易懂。

图灵奖Yann LeCun最新《从机器学习到自主智能》伯克利演讲,附视频与90页报告 - 智源社区

《从机器学习到自主智能》,图灵奖得主Yann LeCun最新报告,附192页ppt与视频 - 知乎

AI applications
33:25 Self-supervised Learning
45:20 LLMs suck!
56:45 Objective Driven AI
1:04:40 Learning to understand the World (JEPA)
1:12:20 AGI is not a thing

人工智能的应用 AI可以救命

自监督学习

我们近年来在人工智能和机器学习领域所取得的进展,大部分都归功于“自监督学习”的技术。从本质上看,自监督学习是一套技术,可以在不需要标注数据或者人工干预的情况下,训练系统来理解数据和世界。

这种技术在自然语言处理领域尤为成功。如今大部分NLP系统的训练方式,无论是基于大语言模型还是其他模型,都采用了这种方法。它的核心思想是,取一段文字,删除其中的某些单词,然后训练一个大型神经网络,比如Transformer架构,来预测这些被删除的单词。典型代表就是BERT模型。它完全基于自我监督学习。除了原始文本外,不需要任何其他数据。

我的同事开发了一个名为Dino V2的系统,这是一个基础的视觉模型,经过训练后,能够从图像中提取特征,用来处理各种任务,比如分类、细粒度分类、深度估计、语义分割和实例检索等等。这种方法只需要非常少的监督,但由于它在大量数据上经过了预训练,因此只需要训练一个浅层网络,就可以在很多任务上击败现有的技术。

举个例子,我们在Dino V2上训练了一个较小的模型,能够从卫星图像中预测树木的高度。通过知道树的高度,就可以估算树木消耗了多少碳。这是非常重要的信息,因为它涉及到我们是否应该保护森林,以及我们是否应该种植更多的树木和在何处种植。另外

LLMs 很烂

目标驱动的AI

学习理解世界(JEPA)

AGI不是一件事

以及他的世界模型

大飞我个人还是非常喜欢他的

感觉他的想法是很独辟蹊径的

有点东邪黄药师的味道

而且通过Llama和Llama2模型

让本来落后的Meta在AI方面打了个翻身仗

确实是有点水平的

所以我们今天就来看看他究竟是怎么来看待AI的

关于杨立昆的履历,我就不多说

大家一查就知道

现任Meta的首席AI科学家

纽约大学教授

最知名的应该是2019年获得图灵奖了

当然还有很多很多其他的荣誉

有意思的是

这次主持人提到了以他命名的卷积神经网络LeNet

他上台后还特意纠正了一下

不是他自己命名的

是当时他在贝尔实验室时的实验室主任起的

确实有点可爱

接下来为了方便叙述

我就直接使用第一人称

把自己代入杨立昆了

在这个演讲中

我要讨论的是目标驱动的AI

我曾经用“自主机器智能”作为演讲的标题

但是会把人吓到

担心机器真的会变得自主

超出我们的控制范围

因此

我将标题改为了“目标驱动的AI”,

指的是那些具有学习、记忆、推理、计划和常识

并且可操控和安全的AI系统

我先来分享一些AI领域的前沿技术

人们对AI有很多担忧和恐惧

这很正常

不过我们应该首先看到它的好处

在交通方面

有基于AI的辅助驾驶、自动驾驶

能够减少汽车的碰撞

在艺术方面

AI让那些不具备技术基础的人也能创造艺术

在医学方面

我们正在使用3D图像识别技术

来检测乳腺X光中的肿瘤

并且将MRI数据采集速度提高了四倍

在科学研究上

现在神经科学家用人工神经网络来描述大脑的工作原理

在物理学,尤其是高能物理学中

现在有很多模型是基于AI来描述粒子碰撞等现象

大约12%的物理学论文都提到了AI技术

同时AI也被用来验证关于暗物质等的理论

在环境保护方面

我们尝试用AI来模拟大量的化学实验

重要的是

我们近年来在人工智能和机器学习领域所取得的进展

大部分都归功于“自监督学习”的技术

从本质上看,自监督学习是一套技术

可以在不需要标注数据或者人工干预的情况下

训练系统来理解数据和世界

这种技术在自然语言处理领域尤为成功

如今大部分NLP系统的训练方式

无论是基于大语言模型还是其他模型

都采用了这种方法

它的核心思想是,取一段文字

删除其中的某些单词

然后训练一个大型神经网络

比如Transformer架构

来预测这些被删除的单词

典型代表就是BERT模型

它完全基于自我监督学习

除了原始文本外

不需要任何其他数据

我的同事开发了一个名为Dino V2的系统

这是一个基础的视觉模型

经过训练后,能够从图像中提取特征

用来处理各种任务

比如分类、细粒度分类、深度估计、语义分割和实例检索等等

这种方法只需要非常少的监督

但由于它在大量数据上经过了预训练

因此只需要训练一个浅层网络

就可以在很多任务上击败现有的技术

举个例子

我们在Dino V2上训练了一个较小的模型

能够从卫星图像中预测树木的高度

通过知道树的高度

就可以估算树木消耗了多少碳

这是非常重要的信息

因为它涉及到我们是否应该保护森林

以及我们是否应该种植更多的树木和在何处种植

另外还有预测蛋白质的AlphaFold

以及能够翻译200多种语言的Seamless项目

目前像Google、Meta等这些公司的业务

很大程度上都依赖于深度学习

比如,五年前

Facebook使用当时相对简单的机器学习技术方法

仅能自动删除大约20%至25%的仇恨言论

但是自从自监督的预训练Transformer技术出现后

这一比例在去年已经增加到95%。

很多人对人工智能持有各种观点

可是其中一些人对它知之甚少

他们可能会告诉你关于人工智能的各种潜在危险

比如如何破坏民主

或者因为虚假信息造成的影响

但是,他们可能没有意识到的是

人工智能实际上是这些问题的解决办法

比如

社交网络的内容审核已经大量地依赖了人工智能的进步

关于大语言模型

它们都是基于自回归技术

简单来说

这意味着从一段文本中删除某些单词

然后训练模型来预测这些单词

这种方法被称为自回归预测

它的效果令人震惊

市场上有许多这样的模型

例如Meta的Llama、Llama2等

还有像CodeLlama这种专门用来生成代码的模型

这些系统确实展现出了卓越的性能

让我们都感到震惊

但是,它们也犯下了一些严重的错误

这些系统并不真正理解这个世界

只是被训练成根据给定提示

生成最有可能的单词序列

尽管它们经过微调

能够有效地解决特定的问题

但是依然存在事实错误和逻辑错误

它们的输出不总是一致的

并且它们没有真正的推理能力

由于这些系统只是从文本中学习

所以它们对真实世界的理解是有限的

它们没有常识

无法像我们预期的那样策划答案

Meta最近发布了28种专门针对不同应用的聊天机器人

每个机器人都有自己独特的性格

但是问题在于

这些系统并不如我们预期的那样出色

虽然它们能够流畅地使用语言

给人一种它们很聪明的错觉

但是实际上

它们并没有真正的人类智能

事实上

我们距离实现人类水平的智能

我将这个称为AGI,还有很长的路要走

这些系统之所以看起来那么聪明

是因为它们接受了大量的数据训练

使它们积累了大量的背景知识

但是大多数人类知识与语言无关

而与我们的日常经验有关

很多人认为,这些机器不能制定计划

并且它们的预测是基于自回归的

这在本质上是有缺陷的

我预测,几年内

没有人会使用自回归大语言模型

因为它有明显的缺陷

基于当前的大语言模型

不会创造出比人类更聪明的人工智能

未来的人工智能系统一定不会是自回归的大语言模型

自回归大语言模型的问题就在于

它们没有真正的推理和计划能力

尽管每个生成的Token的计算是恒定的

但是这种机器不会学习到世界是如何运作的

因此它们永远无法达到人类的智慧水平

当某家公司的CEO声称他们拥有世界上最先进的大语言模型

并预测AGI即将到来时

我们应持谨慎态度

这里杨立昆明显是在内涵OpenAI和Sam Altman

当然

机器最终会在所有领域超越人类的智能

这是毫无疑问的

但是这个过程可能需要数十年

这些都与人工智能面临的挑战有关

特别是在学习对世界的表征和预测模型方面

我们虽然在文本的处理方面取得了不错的进展

但是视频方面仍需努力

同时,AI需要学会推理

比如丹尼尔·卡尼曼的系统一和系统二的概念

系统一是我们不假思索的潜意识行为

而系统二是需要我们集中注意力的有意识行为

当前的大语言模型可以处理系统一的任务

但是对于系统二

我们仍然需要构建能够推理的人工智能系统

我曾提出一个解决方案

称之为目标驱动的人工智能

这是一个基于模块化认知架构的理念

这个认知架构包括多个模块

第一个是感知模块Perception

它负责感知世界并构建对当前世界状态的估计

这个估计可能会结合Short-Term Memory中存储的内容

这是没有被直接感知到的信息

接下来是世界模型World Model

它的任务是预测一系列行动的结果

演员Actor模块则想象这些动作

并将动作输入到世界模型

这个模型会预测一系列行动的潜在结果

整个系统的主要目标是找到一个行动序列

这些行动预计会满足成本模块定义的约束条件

成本模块基本上是整个系统的驱动力

代表系统当前的目标和整体目的

整个系统从世界模型获取预测结果

然后计算成本

其实基本上就是在衡量系统的不舒适度

实际上

整个系统的任务就是找到一个成本最小化的行动序列

当然,有些安全措施

在系统推理时已经考虑进去了

并确保系统只产生安全的行为

比如机器人在切洋葱时不会突然挥动其手臂

如果系统能满足两个基本条件

一个是保护目标本身的安全性

一个是世界模型的准确性

那么系统在本质上就是安全的

但是这两个条件都很复杂和具有挑战性

这种思考模式与控制理论中的模型预测控制非常相似

但是不同之处在于我们在这里是在学习世界模型

并且可能同时学习相关的成本

你可以将这个系统视为一种分层规划的系统

实际上

人类和动物时刻都在进行这种分层规划

这是我们日常活动的基本特征

不过我们目前还未能完全掌握这一技能

期待有抱负的年轻科学家或研究者

能够真正破解分层规划的秘密

举个例子

假设我现在位于纽约大学的办公室

计划前往巴黎

在宏观层面上

我需要先前往机场然后乘坐飞机

但是在这之间,我还要做许多决策

比如根据交通情况选择机场

考虑哪家航空公司的航班

接下来,我需要考虑如何到达机场

可能是打车或者是坐地铁

为了实现这个目标

我需要走出办公室,叫车

但是这就涉及到从座位上站起、打开门、走向电梯等一系列更微观的行动

我们不可能为从办公室到巴黎的每一步

都制定详细到毫秒的计划

这就需要分层规划

虽然工程师在进行控制操作时确实可以实现这种规划

但是其中的层次结构往往是手动设定的

真正的挑战在于

我们如何让机器能自动学习

并且确定行动计划的合适层次

如果要通过大语言模型来实现这种功能

那么Token的生成就不再是逐一进行的

而是要通过推断一系列满足多个目标和条件的Token来完成

现在技术还做不到

最终

我们希望机器能够学习和理解世界

这才是建立世界模型的目的

当我们考虑在时间t的世界状态和可能的行动时

我们希望预测时间t+1或之后的世界状态会是怎样的

婴儿在最初的几个月里就能迅速学习世界的运作方式

从基本的三维空间概念到物体的持续性和重力等基本物理原理

这些大都是通过观察和实验学到的

而我们至今还不清楚如何让机器实现这种学习

这也是为什么尽管我们已经拥有了高度智能的系统

比如可以轻松通过律师考试的系统

但是我们还没有可以自动完成家务的机器人

再举个例子

到现在我们还没有真正拥有完全自主的L5级自动驾驶汽车

但是任何一个17岁的青少年

都可以在20小时内

学会如何在高速公路上行驶

很显然,我们仍然不知道

如何在机器上复制人类和动物所展现出来的学习效率

因此

我们需要让机器能够从视频中学习世界模型

一种办法就是使用联合嵌入型预测架构(JEPA)

在表征空间中进行预测

处理文本相对容易

因为文本是离散的

而且预测接下来的token的概率分布相对简单

但是对于视频

我们还没有找到一种可以有效表示所有可能性的方法

虽然现在大家都在讨论生成式人工智能

但是生成模型并不是王道

事实上,目前这些流行的方法

比如大语言模型和其他机器学习方法

都存在局限性

在生成模型中

你需要从观察到的数据x预测输出y

这在文本上是可以的

但是在视频中,这几乎是不可能的

要实现人类水平的人工智能

这个挑战可能比我们预期的要大

至少绝对比某些过于自信的人所想象的要困难

在达到人类级别的人工智能之前

我们可能得先实现猫级别的人工智能

有些人可能担心,有一天

一台无比强大的计算机

会接管整个世界并消灭所有人

但是这种想法是完全不可能发生

我们会从小规模、低智能的模型开始

然后逐渐提高它的智能

并确保它在各种受控环境中被安全地测试

所以

机器人突然获得高级智能并失去控制

这种想法只存在于好莱坞的电影中

实际上,并没有所谓的通用人工智能

因为智能本身就是多维的

人类只在某些方面表现出色

但在其他许多方面表现平庸

计算机在很多任务上都比我们做得更好

例如国际象棋、围棋、扑克和许多电子游戏

仅凭歌声就能识别鸟类

或者通过尾巴的形状来识别海洋哺乳动物

这些AI都可以做到

但是只有少数人类能做到

因此,所谓的通用人工智能AGI

实际上是一个误导性的概念

不可否认

机器将最终超过人类的智能

因此人类对此感到害怕是可以理解的

但是我们现在每次与数字世界的互动

其实都是通过人工智能系统进行的

因此这些人工智能系统

将成为所有人类知识的中心存储库

在这个背景下开源就显得尤为重要

因为整个互联网的基础设施都是开源的

并且在开源软件上运行

它太重要了所以不能被单个公司所控制

所以AI系统必须是开源的

这些系统的培训方式

应该是像维基百科那样的众包方式

收集全球的文化信息和知识

这也是我为什么强烈的支持基于开源的人工智能模型

现在有许多公司呢正在向政府施压

希望将人工智能封闭起来

认为它过于危险

需要更多的控制和许可

但是我认为真正的危险在于

它只被掌握在少数人的手中

我个人相信

如果我们能够正确的发展和应用人工智能

它有潜力让每个人都更为聪明

这种变化给社会带来的影响

与500年前印刷机的出现类似

或许会引发一个新的复兴

因为智力是我们目前最急需的资源

这将让人类变得更加聪明

以上呢就是杨立昆演讲的核心内容了

基本勾勒出了他对未来AI发展方向的主要看法

核心呢还是自监督学习加世界模型

而解决方法的关键呢

是联合嵌入式的可预测架构JEPA

但是呢由于时间关系

很多内容呢还没有展开来讲

尤其是关于世界模型和JEPA这块

我们呢找时间会再专门的介绍一下

除此之外呢

大飞我比较感兴趣的还是cost成本模块的实现

实际上呢这块才是决定了预测结果的地方

也是为什么杨立昆说整个系统的驱动力的原因

不过呢现在的世界模型还面临着一个工程化的问题

就是如何能够像Transformer加工那样形成大量的模型

让大家实现和使用起来更加的容易和方便

同时呢也需要有更多的人去响应

参与改进优化才行

那大家对杨立昆的观点是如何看待的呢

欢迎在评论区留言

感谢大家的观看我们下期再见

参考资料

分享

码中人
作者
码中人
Web Developer