《我看见的世界：李飞飞自传》 | 在ChatGPT出现之前，ImageNet如何奠定人工智能技术革命？_悦读_专栏频道首页_财经网

算法，还是数据

2006年，计算机视觉研究仍然是一个缺乏资金，且很少收到外界关注的学科。许多研究人员专注于构建更好的算法。他们坚信，算法是计算机视觉的中心，如果把机器智能与生物智能做类比，那么算法就相当于机器的突触，或者说是大脑中错综复杂的神经回路。有什么比让这些回路变得更好、更快、更强大还要重要的呢?

但李飞飞并不这么认为。彼时，她刚刚获得加州理工大学的博士学位，在伊利诺伊大学厄巴纳-香槟分校担任助理教授的职位。在攻读博士期间，李飞飞意识到了这种研究思路的局限性：如果训练算法的数据不能很好地反映现实世界，那么即使是最好的算法也无法很好地完成工作。

李飞飞的想法是：构建一个能够完全反映真实世界的数据集。

在一个偶然的机会中，李飞飞结识了语言学家克里斯蒂安·费尔鲍姆，WordNet 项目的领导者。费尔鲍姆向李飞飞介绍了 WordNet —— 由心理学和认知科学领域的先驱乔治·阿米蒂奇·米勒创立的项目。米勒在心理学研究中对语言的结构及其在人类认知过程中的所扮演的角色产生了浓厚的兴趣，设想在更大规模上描绘出语言的结构图。

WordNet 的设计理念是基于语义关联而非拼写相似性，例如，“apple”（苹果）与“appliance”（器具）虽拼写接近，但在 WordNet 中，“apple”会与“food”（食物）、“fruit”（水果）、“tree”（树）等相关词汇形成关联。这样构建的词汇网络，就像一幅庞大的地图，将人类语言中的概念连接成一个有机整体。

自1985年诞生起，WordNet 已经发展成为一个庞大的数据库，包含超过14万个英文单词，并且还在不断扩展至其他语言。

在交谈中，费尔鲍姆提及了一个计划，旨在通过视觉示例，如照片或图表，来阐释WordNet中的每一个概念。尽管这个计划最终未能实现，但它激发了李飞飞的兴趣，成为了后来ImageNet项目的灵感来源。

几个月后，李飞飞回到了她的母校普林斯顿大学，并在2007年初启动了ImageNet项目。ImageNet的宏伟目标是为每个类别收集1000张独特的图片，从小提琴到德国牧羊犬，再到抱枕，涵盖了22000个类别，总计需要约2000万张图片。这个数字仅代表最终数据库的规模，实际上，团队可能需要从数亿甚至十亿张图片中进行筛选。

起初，李飞飞采用的策略是支付本科生每小时10美元的报酬，手动搜索并添加图片到数据库。但她很快意识到，以这种方式收集图片，完成整个项目需要19年的时间。

随后，李飞飞和她的团队考虑使用机器辅助人工标注，但这引发了一个悖论：如果机器能够准确识别物体并协助标注，那么ImageNet本身就变得多余了。

更重要的是，对自动化标注过程的反对不仅仅是技术上的问题，而是哲学上的考量。ImageNet的使命是在每张图片中嵌入纯粹的人类感知，以期在整个图像集上训练出的计算机视觉模型能够展现出类似人类的智慧。使用机器可能会削弱这一目标。

在一次偶遇的走廊对话中，一个最终的解决方案诞生了。一位名叫孙民的研究生向李飞飞介绍了亚马逊土耳其机器人（Amazon Mechanical Turk），这是一个允许全球用户通过完成小型在线任务来赚取报酬的众包平台。

亚马逊土耳其机器人彻底改变了游戏规则，将原本的大学生标注团队转变为一个由数十、数百、甚至数千人组成的国际团队。随着支持的不断扩大，ImageNet的预计完成时间大幅缩短，极大地提高了项目的成本效益。在ImageNet发展的高峰期，李飞飞的团队成为了土耳其机器人平台上最大的雇主之一。

2009年6月，ImageNet的初始版本正式发布，收录了1500万张图片，覆盖了22000个不同类别。这些图片从近10亿张候选图片中筛选出，并由来自167个国家的近5万名贡献者进行标注。每张图片都经过了手工标注，并在层次结构中进行了组织，经过三重验证，ImageNet成为了世界上最大的图像标记数据集。

尽管如此，ImageNet并没有立即在计算机视觉领域引起轰动。在2009年的计算机视觉与模式识别大会上，ImageNet仅以海报形式展示，只能在会场的指定区域展示项目摘要，希望能吸引过路人的注意。在那次大会上，ImageNet的影响力微乎其微，学界对其实际价值仍持怀疑态度。

转折点

2010年，为了提升 ImageNet 的名气，李飞飞举办了ImageNet 大规模视觉识别挑战赛 (ILSVRC)。参赛者需要在经过精简的1000个ImageNet 类别列表、140万张图片中训练自己的算法。最后用一组算法从未见过的图像对其进行测试，评估算法对图像标注的准确率，以此计算排名，总错误率最低的算法胜出。

然而，现实却与李飞飞团队的期望背道而驰。获胜算法来自一个由 NEC 实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。他们采用的是支持向量机算法——此前被李飞飞认为无法驾驭ImageNet的一种算法。

事实上，支持向量机算法在那几年非常流行，到2010年，它似乎已经成为物体识别的实际标准。这种算法的表现确实可圈可点，不过，与计算机视觉领域其他方面的前沿工作相比，这些算法只能算略有改进，很难说开启了新的时代。

2011年，ImageNet 大规模视觉识别挑战赛的获胜者是法国施乐研究中心，他们也采用了一种支持向量机算法，识别表现虽然比前一年有所提高，但也只是将准确率提高了2个百分点左右。

虽然大多数算法都难以应对ImageNet，但支持向量机比她想象的要强大，它为参赛者提供了安全的避风港。由于一直没有什么实质性上的突破，ImageNet大赛的参赛人数开始出现急剧下降：报名人数从150人减少到96人，参赛算法也从35个减少到15个，愿意为此付出努力的人似乎越来越少。

转折点发生在2012年。

2012年9月30日，一个名为AlexNet的算法成为了新一届ImageNet大规模视觉识别挑战赛的冠军。

但AlexNet与之前几届冠军有着明显的区别，它的识别准确率高达85%，比上一年的冠军高出10个百分点，创造了计算机视觉识别领域的世界纪录。虽然这个算法还没有达到人类的水平，但已经比其他任何算法都更加接近，而且差距已经小到惊人。

更令人惊讶的是，AlexNet采用的算法是计算机视觉领域的老古董——神经网络算法。到了21世纪初，大多数科学家已经把神经网络看成是尘封已久的艺术品，包裹在玻璃罩中，四周用天鹅绒绳索保护，闲人勿近。

AlexNet 是卷积神经网络(Convolutional Neural Network，CNN)的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中，一系列滤波器在图像上扫过，寻找与网络所识别事物相对应的特征。

这是一种独特的有机设计，灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察，即视觉处理在多个层次上进行。就像在自然界中一样，卷积神经网络的每一层都会逐渐整合更多的细节信息，从而形成越来越高层次的感知，最终将真实世界的物体完整地呈现在我们的视野中。

这样就形成了一种类似视网膜的算法，凝视着周围的环境。就像真正的眼睛一样，算法的最外层把成千上万个感受野应用于图片的像素，每个感受野都经过特定调整，能够识别出独特的微小图案，并在遇到这种图案时被激活，比如以一定角度倾斜的对角线边缘、两种色调之间的模糊混合、条纹图案或明暗交替等等。

在这种感知水平上，滤波器可以对任何事物做出反应，比如小狗皮毛的图案、厨房柜台的边缘，或者阳光下玫瑰花瓣轮廓上的闪光。

研究团队没有预先决定网络应该寻找哪些特征，而是让数十万个神经元在没有人工干预的情况下，完全依靠训练数据逐渐学习到自己的敏感度。AlexNet就像生物智能一样，也是自身所处环境的自然产物。

接下来，来自成千上万个感受野的信号会深入神经网络，汇聚融合成更加丰富、清晰的提示信息。最终，经过各层过滤后，仅剩下少数几个信号被融合成识别对象的详细图像，进入网络的最后阶段:识别阶段。摩托车、豹子、算盘、母鸡、电视机，或是其他上千种选择中的任何一个。所有这些都来自同一种算法，其精确度越来越接近人类水平。

神经网络的世界

AlexNet的成功，催生了新一代神经网络的热潮，每年都取得令人惊叹的飞跃。像任何占主导地位的生物一样，这种新型神经网络几乎垄断了它们所处的环境。它们是如此有效而优雅，适用范围又如此之广，几乎所有其他技术都在一夜之间被淘汰出局。

很快，AlexNet被更强大的卷积神经网络（CNN）取代。微软亚洲研究院在2015年击败了AlexNet，成为ImageNet大赛的获胜者。

此前，支持向量机等算法还是学术界的宠儿、研究人员的迷恋对象，而AlexNet诞生后，这些算法几乎从会议讲座、发表的文章甚至实验室里的谈话中消声遗迹了，所有人都只想谈论神经网络的最新发展。

自2009年ImageNet数据集在计算机视觉与模式识别大会首次亮相以来，五年多时间里，ImageNet挑战赛已经发展成为计算机视觉领域的基础赛事，为该领域的技术进步提供了共同的基准。每年都有新的进展，机器表现与人类表现之间的差距不断缩小。机器的误差率越来越小，越来越接近人类的水平，甚至正在超过人类的水平。

人类的能力维度是丰富多样的，远非任何单一指标所能衡量。但人类的缺点和优点一样具有启发性。例如，人类可以用各种常识、视觉线索和直觉来解释为什么自己认为附近树上的鸟是沿海蓝鸦，在这方面，人类比机器做得更好。但人类识别鸟类的能力是非常有限的，即使是经验丰富的鸟类观察者，也很少能识别出几百种以上的鸟类。因此，对普通的观察者来说，绝大多数鸟类是未知的。

在一般物体分类方面，计算机已与人类水平相差无几。当人工智能努力克服相差的最后几个百分点时，它似乎又在其他方面超越了我们，而且超越幅度极大，因为计算机在知识储存方面的能力让人类大脑望尘莫及。

但人工智能技术的发展远比人们预想中的快，一种称为Transformer的新型机器学习模型成为自2012年的AlexNet以来神经网络设计中最大的进化飞跃。Transformer具备了所有让大型语言模型成为可能的必要特性：规模庞大，通过处理大量并行数据块来加速训练，并拥有极其复杂的注意力机制。

不管怎么看，Transformer 都是一个里程碑，甚至可以说是一个转折点；它一经发布，就立刻展示出了惊人的能力，甚至连其背后的专家们都感到震惊，而这些进展至今都没有放缓。

可以肯定的是，基于Transformer的大型语言生成模型再次展现了大规模数据的力量。AlexNet首次亮相时，网络参数为6000万个，刚好足以对ImageNet数据集进行合理解释，至少可以解释部分子集。相比之下，Transformer的参数已经增长到数千亿个，足以利用文本、照片、视频等形式的数据进行训练。这无疑带来了无尽的工程挑战，但其中所体现的科学性却出奇的优雅。

可以确定的是，高质量数据正在变得前所未有的重要，也变得越来越珍贵。谷歌、Facebook 和亚马逊等一众科技巨头已将开始根据在其平台上输入和共享的数百万张图像、语音剪辑和文本片段创建自己的内部数据集。

2023年4月，拥有超7600万用户的社交网站Reddit宣布不再允许其他公司免费抓取其网站。多年以来，Reddit 被谷歌、微软等公司用作机器学习的重要数据来源。故事的另一边，OpenAI正与全球数千家媒体以及几十家出版商就其作品授权进行谈判，用来训练其人工智能模型。

ImageNet在人工智能领域改变的一件事是，它让人们意识到，创建高质量的数据集是人工智能研究的核心，尽管这项工作往往不为人所知，这种认识的转变标志着数据在人工智能发展中的起到的关键作用。（整理摘编自《我看见的世界：李飞飞自传》，中信出版集团）

基本信息

书名：《我看见的世界：李飞飞自传》

作者：【美】李飞飞著

译者：赵灿译

出版时间：2024年4月

开本：32开

页数：432页

装帧：精装

定价：85.00元

ISBN：978-7-5217-6218-1

内容简介

《我看见的世界：李飞飞自传》既是李飞飞的个人史，也是一部波澜壮阔、跌宕起伏的人工智能发展史。

在这本书里，李飞飞回忆了自己从底层移民成长到顶尖科学家的经历。她度过了困顿艰辛的青少年时代，但对科学的热爱不断激励着她持续追寻人生的“北极星”，并最终走进科学的殿堂。

当李飞飞和家人努力适应在美国的生活时，恰逢现代人工智能开始不断取得突破。她不断开启新的科学征程，并确立了自己在计算机视觉领域的科学使命，取得了非凡的成就。在这本书里，她详细记录了这些重大时刻的关键细节。同时，李飞飞也对未来人工智能的发展方向提出了自己的判断和警醒，核心就是“以人为本”，让人工智能真正推动人类的发展，而不是成为威胁。

这本书既是对重大科学突破幕后的精彩窥探，也是一位女性用好奇心和勇气突破人生困境的故事。它不仅证明了即使是最技术性的学术研究也需要激情，更加表明永不停歇的好奇心可以激发无尽的科技创新。

作者简介

李飞飞（ DR. FEI-FEI LI）

美国国家工程院、国家医学院、艺术与科学院三院院士

现代人工智能的关键催化剂ImageNet创建者

斯坦福大学计算机科学系首任红杉讲席教授

斯坦福大学以人为本人工智能研究院（HAI）联合院长

前谷歌副总裁、谷歌云人工智能及机器学习首席科学家

斯坦福大学人工智能实验室第七任主任

《时代》“百大AI影响力人物”

1976年出生于中国北京，长于成都；1992年随家人赴美；1995年被普林斯顿大学物理学专业以全额奖学金录取；2005年在加州理工学院获得电气工程博士学位；2009年在斯坦福大学完成ImageNet的初始版本，包含1500万张图片，涵盖了2.2万个不同类别；2012年发起举办的ImageNet大型视觉识别挑战赛第三届比赛上，神经网络算法AlexNet识别准确率高达85%，开启了新一轮深度学习革命。

01如坐针毡的华盛顿之行

我马上要在美国国会就“人工智能”的话题做证，我坚信人工智能可以让世界变得更好。无论如何，我都要让大家知道，科学的力量依然值得我们满怀乐观。

02逐梦之旅

十几岁的我疯狂地痴迷与热爱物理学，为此父母决定冲破周围一切障碍，飞越重洋，全家前往美国，开启逐梦之旅。

03鸿沟渐窄

移居美国的决定让我们陷入贫困，全家都在艰难地跨越新环境带来的巨大鸿沟，但好在，我们都看到它正在缩小。

04心智探索

从普林斯顿大学到伯克利，我首次接触到真正的科学给我带来的兴奋感。我确定自己无比热爱研究，我要找到属于自己的北极星。

05第一道光

人工智能的发展再次遭遇寒冬，我在导师们的引导下开始关注视觉研究。此后，它将成为我一切学术旅程的主线，成为我世界的中心。

06北极星

2004 年，我们创建的Caltech 101 完工，成为有史以来为机器学习配置的最大规模的图像集合，里面有超过9000 个图像，分布在100 个类别中，另外我还独自完成了一个新类别的图像整理。如果彼得罗想要100 个类别，我就给他101 个。

07一个假设

ImageNet 不仅是一个数据集，它是一个假设、一个赌注，即实现真正机器智能的第一步，是沉浸在完整的视觉世界中。这个赌注无论被证明是对是错，我都做好了准备。但我没想到，它被忽视了。

08实验验证

在ImageNet 的帮助下，AlexNet 焕发生机，它贪婪地吸收着ImageNet 的内容，在ImageNet 规模和多样性的土壤中生根发芽，茁壮成长。

09万物以外是什么

深度学习革命已经到来，而我们还没有做好准备。报纸上的一篇文章让我看到了世界变化之快。我们的对手不是其他大学的某个神秘研究团队，而是谷歌。

10似易实难

“人工智能还能做哪些事来帮助别人？”母亲在病床上的问题，让我开启了医疗服务的环境智能研究。另外，我开始思考“人工智能伦理”的议题。

11无人可控

此时，我们都处在一场全球风暴之中，我们要从根本上重新构想人工智能，使其成为以人为本的实践，这个共同的目标就是下一颗北极星。

12下一颗北极星

人工智能的未来仍然充满不确定性，我们有很多理由保持乐观，也同样有很多理由感到担忧。但一切都源于比单纯的技术更深层次、更有影响的问题：在我们创造的过程中，是什么在激励着我们的心灵和思想？

致谢

译后记

声明：财经网专栏文章版权属作者本人或相关权利人所有，文章仅为作者观点，不代表财经网立场。

《我看见的世界：李飞飞自传》 | 在ChatGPT出现之前，ImageNet如何奠定人工智能技术革命？

相关新闻

专栏人物推荐

机构专栏推荐

要闻