您当前的位置：首页 > 年代诗人

LeCun的小目标专注10个科学问题更好

2019-03-19 05:26:56

【编者按】人工智能正在引领下一代技术革命，Facebook就是其中的大玩家之一。2015年，Facebook就在巴黎成立了人工智能研究中心（Facebook AI Research，简称FAIR），建造能够理解海量数据的人工智能机器。此后，有外媒报道Facebook还在秘密开发代号为“Moneypenny”（简称M）的人工智能助理项目，该项目已展开内部测试。那么，相比谷歌、微软、英特尔等巨头，Facebook在人工智能的布局又有何异同呢？

本文转载自arstechnica，作者Steven Max Patterson，亿欧，供行业内人士参考。

未来，Facebook会有一个拥有类人智能的对话代理。Siri、Google Now和Cortana目前都在尝试变得更智能，但是一旦脱离既定情景，它们都失败了。这是为什么扎克伯格在2016年为自己的家庭打造私人AI助手的一个原因——当下的产业发展情况并不能满足他的需求。

当然，Facebook也已经开始打造自己的AI平台——M。M不会拥有跟人一样的智能，但是它会在一些狭窄的领域拥有智能，通过观察人类的行为进行学习。Facebook希望让AI成为公司的下一个大平台，M只是其中的一个研究项目。

在通往打造类似人类的智能的道路上，Facebook将使用机器学习（ML）来了解用户反馈给公司的基础设施的所有内容。Facebook想要使用AI来让其平台理解贴文，故事，评论，图像和视频的意义。然后将这些信息存储为元数据，以改善广告定位并提高用户流内容的相关性。元数据还可用作创建高级对话代理的原始材料。

这并不是一个遥不可及的目标：AI现在是Facebook的下一个平台。Facebook正在悄悄地实现这一目标，与此前从页到移动端的转变具有相同的优先级。（移动端目前占据了Facebook收入的84％）虽然你目前不能通过发出“OK Facebook”或“Hey Facebook”的指令与之进行互动，但是，今天已经有大量的AI，能够让Facebook通过图像，视频，流或其正在萌芽的聊天机器人，来增加对用户的吸引力。并且，如果他们的集体的工程设计能找到方法，那么自动化程度只会不断增加。

LeCun的小目标：专注10个科学问题，更好地模拟人类智力

在早期阶段，项目M作为基于文本的数字助理存在，通过将AI与人类训练者结合来理解用户意图（用户想要什么，例如呼叫Uber），这一会话发生在使用机器学习训练的Facebook Messenger机器人和用户之间。当人类训练员介入以找到用户意图时，机器人倾听和学习，以便在下一次预测用户的意图时提高其准确性。

遇到一个问题时，如果机器计算出的概率较低，无法达到准确率要求，它会请求训练员的帮助。如果机器计算的概率足够高，则机器会对人类训练者没有注意到的用户进行回应。

这种交互是可能的，这要得益于创建于Facebook人工智能研究院（FAIR）建造的记忆络（Memory Network）。一个记忆络指的是带有内存的神经络。虽然这并不是从人脑的研究获得启发，但是这一神经络跟大脑皮层很相似，

相关的络内存就好像海马体，它通过长期、短期和空间导向的内存转换来搜集信息。当这些信息被送到皮层或者神经络中，就会被转化成思考或者行动。

Facebook的记忆络技术已经通过开源社区开源。FAIR主管Yann LeCun把Facebook未来的智能对话代理描述为一个高级版的M。

“它以M为基础，但是是完全自动化和个性化的”，他说，“所以，M是你的朋友，但不是所有人的朋友，它只是你的M，你可以跟它进行交互，它是完全个性化的，它了解你，你也了解它。并且，你能够与它进行的对话是有信息量的、有用的……这一个性化的助理，你能够把它带到任何地方，从理论上说，它也能在各个方面帮助你。从本质上看，这要求具有人类水平的智能。”

LeCun是AI和ML研究的先驱。他被招到Facebook来建立和领导FAIR。正如一些先进研究所暗示的那样，目前的M项目的机器人并不是LeCun的终点，它们是实现智能会话代理长期目标的一个里程碑。LeCun不能预测什么时候达到最终目标，甚至可能在他的职业生涯中都不会成功。但每个阶段式的里程碑都定义了需要构建的硬件和软件，以便未来的机器可以更像人类一样推理。在每次的迭代中，功能变得越来越好。

教计算机像人类一样推理面临的阻碍是巨大的。凭借在该领域30年的研究经验，LeCun相信Facebook可以专注于10个科学问题，以更好地模拟人类的智力。他在我们访问期间分享了其中的一些。

例如，在3到5个月的年纪，婴儿就学会了客体永久性的概念。客体永久性是指儿童理解到物体是作为独立实体而存在的，即使个体不能知觉到物体的存在，它们仍然是存在的。AI研究人员还没有建立一个能理解客体永久性概念的ML模型。

另一个例子，对于人工智能系统来说，“奖杯不适合放在手提箱，因为它太小了”这样的句子歧义太多，难以理解。人类很容易分辨出“它”指代的对象是手提箱，但是计算机很难理解其具体意义。

这是一类被称为Winograd Schema的问题。去年夏天，在第一次年度Winograd Schema挑战赛中，经过最好训练的计算机翻译60句话，最后正确率为58％。作为对比，人类的准确率是90％，完全随机猜测准确率是44％，涉及到这些问题，计算机的能力目前更接近于猜测，而不是人类。

“事实证明，这种预测接下来会发生什么的能力是人工智能系统的一个重要部分，我们还不知道如何构建，”LeCun说，“你如何训练机器来预测本质上是不可预测的东西？这提出了一个非常具体的数学问题，那就是，当预测的东西不是单一的东西，而是一系列的可能性时，你怎么做ML？”

作为催化剂的硬件

如果这类的问题可以得到解决，那么10个科学问题也就能够找到答案，进而，像人类一样进行推理的ML模型就可以构建。但是，要运行非常、非常大的神经络，需要新的硬件——使用一个分布式计算架构，由非常高速的络进行连接，并且，要运行这些模型，还要有算法来进行高度的优化。这一切的基础是，要训练这些模型需要一个新的专用的超级计算机，它需要非常擅长处理数字运算。

过去10年间，DL的发展，要得益于新的、专用化的硬件催化。虽然ML研究的理论在多年前就已经得到验证，但是之前很少有研究者会追求ML。由于可以支撑研究的硬件能力总体上是不可用的，所以ML在过去被视为“死胡同”。2011年，谷歌的大脑数据中心使用的16,000个CPU，通过观看YouTube视频识别猫和人的工作证明了ML的可行性，但这一配置也同时说明。谷歌以外，几乎没有研究团队能够拥有如此强大的硬件资源，可以在这一领域展开研究。

突破来自2011年，当时英伟达的研究者Bryan Catanzaro与斯坦福大学吴恩达的团队合作，一起证明了在深度学习上，12块GPU就能实现2000块CPU的性能。GPU硬件的商用加速了纽约大学、多伦多大学、蒙特利尔大学和瑞士AI实验室的研究，也证明了ML的实用性，重新唤起了研究者对这一领域的兴趣。

英伟达的GPU在训练和运行机器学习模型上性能更加强大，但是，还没有达到LeCun所展望的私人助理所需要的量级。另外，成天玩乐使我的钱根本不够花在实验室中运行ML模型，与在拥有17亿用户的Facebook中运行ML模型，二者还是有差别的。

学术上的可行性必须与在Facebook大规模的生产基础设施上高效地运行ML模型的可行性相平衡。这一数据处理量有多大，Facebook没有具体透露，但肯定是艾字节（exabytes）的。

虽然一些Facebook用户知道社交络使用算法来选择他们在其时间线中看到的靠自己的平和的心态来完成人生在戏份中的角色帖子和广告，但很少有人知道该公司已经将ML应用于与Facebook的许多交互中。对于每个用户、时间轴帖子、评论、搜索、广告、图像和一些视频，Facebook使用ML模型对用户最可能感兴趣的点击或评论的预测来动态地排序。

建立这样的神经络，有两个阶段。在第一阶段使用大的标记的样本数据集或输入和期望的输出来训练神经络。在部署神经络的第二阶段中，使用其先前训练的参数来运行推理、分类、识别和有条件地处理诸如时间线帖子等未知输入。培训和推理可以在针对每个阶段优化的不同硬件平台上运行。

一切都起源于图像识别

FacebookAI程序的起点在2012年，当时ML被用于理解用户帖子中图像的内容和背景。应用计算机视觉是一个非常广泛的研究领域，也是ML在学术界的早期应用示范。这是说服扎克伯格和Facebook的CTOMike Schroepfer（他在公司内部被称为“Schrep”）开始从研究到产品化地拓展AI，将AI作为整个公司的平台，并增加对ML的投资的信号之一。这与GPU显著地提高图像识别精度是同时发生的，下图是年度的视觉识别挑战赛Imagenet的结果。

Manohar Paluri于2012年作为实习生加入Facebook的应用计算机视觉团队，当时唯一在使用的图像识别是人脸识别。公司的搜索团队正在为Facebook的搜索引擎构建新的语法结构，当时的搜索引擎除了用户添加的标签外，无法理解图片的内容。根据Paluri的说法，应用视觉团队是为“理解图像中一切人类可以理解的东西，不需要让计算机记住特定的使用场景，而要建立这样一种方式，让产品组里的开发人员可以利用机器学习模型找到他们自己的答案。”

神经络是由多个简单的、高度互连的单元（element）组成的计算系统，基于他们对外部输入的动态回应（dynamic-state response）来处理信息。神经络被训练通过处理大量的标记数据来理解特定的应用情景。鸟的图像被标记为“bird”，汽车的图像被标记为“car”，等等。然后很快地，这个非常大的标记图像样本被压缩成像素处理。在这个训练阶段，通用的ML软件（例如Torch或Tensorflow）被用于训练络来识别图像中的物体。

在这种情况下，输入层是有标记图像的一个大型集合；输出层是将图像描述为“car”或“not car”之类的标签。处理单元（通常称为神经元）的隐藏层产生ML软件通过学习算法处理的中间值（权重），从而将权重与有标签的汽车图像相关联。然后，样本数据被重新处理为不带标签的数据，以测试模型预测标签的准确率。结果将被比较，然后校正误差并反馈到神经络中以调整算法，利用反向传播过程来分配权重。这种迭代校正能得到更高的识别准确率，因此当图像识别模型被用于识别新图像中的内容时，模型在推理阶段能够更高效。

Paluri的模型的第一个版本为Facebook用户上传的图像用一组标签进行标记，例如自拍、食物、室内、户外、风景等。这个图像元数据（metadata）被作为节点集成到Facebook的Open Graph。Open Graph是Facebook对其页面上共享的所有内容的一个动态对象存储库（dynamic object storage ），根据用户的隐私设置实行访问限制。用户信息、文章、照片、音乐等等，几乎所有的内容都是Open Graph的存储对象，并且与其他相关对象有链接。Paluri的ML模型添加了元数据作为上传者的评论和标签的补充，并提供当没有评论时的理解。

这个添加的元数据改进了广告投放和搜索结果，并且基于用户的兴趣权衡帖子的重要程度，优化了推送的发布顺序。这导致用户花更多时间浏览他们的时间线。

从公司的第一个图像理解项目以来，Facebook的图像识别模型在识别照片中的物体，比如猫以外，获得了显著的提升，现在的图像识别技术包括：分类、探测、分割、图说（描述图像中的内容，比如照片中猫在哪个位置，旁边有什么）。

自应用计算机视觉团队开始工作以来，图像识别已经转移到一个称为Lumos的自助服务平台上（开发团队不再监督它）。今天，ML 图像识别训练模型和其他模型分布在整个Facebook的产品开发团队与FB Learner流程平台中。FBLearner Flow目前由Facebook的40多个产品开发团队使用，包括搜索、广告和源，用于训练由FAIR和应用机器学习团队创建的模型。

建模是一个专业领域，需要高等数学、概率、线性代数和ML理论训练，这些都是大多数软件开发人员没有学过的东西。然而，这并不妨碍开发人员训练模型来执行特定功能，例如使用新的分类器来创建和训练模型，具体说就是用各种潜水员图像训练机器识别具有标记的潜水者图像。一旦训练好以后，模型和元数据被处理，就可供整个Facebook内部的开发人员使用。

Facebook图像识别工作现在主要用于区分两大类型的图片。一是暴力、仇恨言论和色情图片。过去，用户将这些图片标记为令人反感的，并将该信息汇入专门的信息管理小组。确认为不良的图像被管理团队成员删除。后来，Facebook开始建立ML模型来识别和删除这些图像。2015 年，ML模型检查并消除的这些图像，比人类标记的更多。现在，信息管理小组开始独立创建新的分类器，识别新类型的令人反感的材料，并重新训练模型实现自动响应。

另一个是出现在用户源中的记忆，那些通常出现在周年纪念日的蒙太奇。很大程度上，Facebook的机器学习模型推断的友谊关系和图像往往是准确的。

用神经络进行视频识别

虽然图像识别蓬勃发展，但视频内容识别和实现处于早期发展阶段。更高的理解视频的准确性在技术上是可能的，但是如果不改进基础设施架构性能，改进算法或两者同时改变，这是不可行的。与大多数商业应用一样，ML模型的实现是成本效益、速度和高精度的折中。

尽管如此，FAIR和应用计算机视觉团队还是实现了Facebook Live视频的实时视频识别。

用户和明星将各自预计和临时想要发布的实时视频流从他们的智能摄像机使用Facebook Live广播到粉丝的流。AI推断可以对实况视频流进行排名，个性化用户的流（newsfeed），消除视频发布和分发产生的延迟。实时视频个性化的服务非常有吸引力，这将再次增加用户在Facebook应用中花费的时间。

用图像识别那么高的精度做视频识别，目前还做不到。整个AI研究圈还没有找到一组共同的特征描述符，也就是一个帧中的小区域，这个小区域能够用于精确检测对象，以便对大范围的视频类型进行分类。视频识别包括动作识别、显着性（人类观察者的注意力的焦点的识别）以及图说的等价物（称为视频摘要）。

让机器理解视频内容十分重要。为了加快这一领域的研究和开发，Facebook与学界和开发者社区合作，开源其视频识别软件，发布一些研究成果并举办研讨会。

视频识别ML模型已经在Facebook中得到了其他的应用。这些模型也被应用于优化视频压缩，提高重放质量，同时减少播放视频的带宽。

神经络和基础设施：部署产业规模的低延迟ML模型

神经络在研究和生产中的应用有很大不同，因此学术研究中的神经络和在产业中应用的神经络，面对的困难也有很大不同。在数以万计的机器上运行具有超低延迟的推理模型，准确地预测用户将点击哪些故事与撰写研究论文，在书面上证明准确预测用户响应是可能的完全是两码事。

现有学术研究论文讨论的是使用具有标准化分布的大数据集训练神经络，其方法和结果也在非常开放的氛围中由研究人员共享和协作。但是，Facebook的Open Graph的巨大规模对实际应用这些研究带来了问题。此外，要整个在现实中建造出类似大规模的基础设施，为17亿个人用户提供推理服务，也是一个非常艰巨的问题。正如Facebook核心机器学习工程总监Hussein Mehanna所说，“数据集变一下，你面对的几乎就是一个完全不同的程序了”。

2014年，Mehanna在Facebook的广告团队工作，使用ML预测用户会点击哪些广告。按照学术研究标准，这根本算不上是突破，但在Facebook的规模运行这种预测算法实际上是一项非凡的成就。

Facebook以前的数据分布不适合于神经络。因此，数据需要通过预处理来提高预测的准确性。但是，预测的准确性只是问题的一部分，在实际应用中，在让用户体验低延迟进行大规模数据预测才行，而这是ML理论和基础设施交叉的问题。通常，神经络会简化为一层或两层，推理模型的软件堆栈用本地代码优化。Mehanna十分看重推理结果与其对Facebook平台影响两者之间的权衡：“只要再增加这些机器数量的5%就可能需要英特尔花好几个月来完成。”

ML预测平台的第一个产业版V1，在实际使用中为Facebook广告团队带来了比不使用ML更好的结果。Mehanna具体解释了AML（应用机器学习小组）这一成就对Facebook商业上的影响：将收入提高1%、2%、3%，用户的观看时间就要增加1%、2%、3%，而对Facebook来说，每一个百分点的提高都是巨大的影响。

也许比盈利的增长和用户观看时间增长更重要的是，V1让团队中很多对ML和神经络抱有怀疑的人无话可说。作为一个平台，V1在设计和建造时就是为了在公司的许多地方使用的，包括源、搜索等各个产品团队。在首次使用成功后，下一个季度的时间里，Facebook公司又使用了15种新的ML模型。如今，Facebook产品团队中，有四分之一开发者在使用V1的升级版V2平台，每个月有超过100万个新的ML模型被测试。

V1平台使ML扩展到广告团队之外，让Zuckerberg和Schrep意识到要增加对AI的投资。而优化学习平台又提高了建立和训练ML模型的迭代速度。这对研究人员来说无疑是一个大好的消息。Mehanna解释说，研究人员有一个想法，一天内就可以做完但却要等一个月才能知道结果，没有什么比这更令人沮丧的了。

推理的优化是独立于模型的，因此它可以和其他模型一起使用。FAIR和应用机器学习团队的人将ML抽象为模块，其他不了解ML的人也可以直接拿过来使用。因此，Facebook内部，FAIR和应用机器学习团队开发的ML模型也得到了越来越多的应用。

这就是从研究到产品化的多阶段AI管道的工作原理。模型是基于应用机器学习小组的经过验证的研究而构建，用于解决通用性的问题。模型通过专门的ML技术和技术优化在Facebook的基础架构上运行，然后将其抽象，以便产品团队开发人员可以使用这些模型。最后，这些模型被应用于FBLearner Flow的各种产品中。

在我们访问期间，Mehanna经常谈论做研究并将其转换为这些可用的产品。他总结了抽象的ML平台在整个公司的影响，就像厨师Emeril说的那样。“真的，人们只要打开罩子、按下开关——BAM！好了，全部都是现成的。”

Facebook副总裁：连续七年，最令我担忧的事情是行动速度在放缓

大多数大公司至少有一个创新副总裁；Linkedin上，你可以发现IBM有34名副总裁，头衔里有“创新”的字样。Facebook一个也没有，因为创新已经是整个工程文化的一部分。Facebook的创新模式可以总结为紧迫性、定期迭代和定量展示进度。新的开发项目可以使用实时数据进行测试，因为Facebook构建了一个屏障来保护用户体验不受实验的影响。扎克伯格那句代表性的话的前半部分——“动作快、有突破”（move fast and break things）在现实中得到了应验。只不过，现在的Facebook打破的事情要比以前少得多。

“连续七年，最令我担忧的事情就是行动速度在放缓，”Facebook全球工程和基础设施副总裁Jay Parikh说。

基础设施、平台硬件和平台软件使开发人员能够快速行动。Facebook Live在原型开发出来3个月后就发布了。“动作快”也被应用到AI这个具有相同紧急性的下一代平台，只是AI被给予了更长的时间。这是因为AI作为一个平台，与移动端相比还不那么成熟。实时视频内容理解、无监督学习和强化学习这些有前途的研究要投入到产业应用，还有一些问题需要解决。还需要设计、验证和构建新的硬件架构。

Facebook属于一个非常小的队伍，这个队伍里的成员还有谷歌、IBM和微软。这些公司都具有深厚的专业知识，并已开始大规模的应用ML。虽然这些公司拥有巨大的人才和资源，AI社区需要集体发展才能加快进步。所有这些公司都开源了他们的软件，公开研究，在会议上发言，与大学和研究机构合作。这种开源与协作是十分重要的，因此相互竞争的Facebook和谷歌才会有研究人员联合发表论文。

开放性对吸引人才也有用。Facebook的平台吸引了很多ML工程师，因为他们在Facebook可以建立由10亿人使用的ML系统。但是，开放性对研究人才招聘更为重要，因为发表的研究论文是衡量研究人员职业生涯的标准。工程师只有与外部同行自由沟通，才能快速完成他们的工作。

“哪家公司垄断都不好，你必须成为广大研发社区的一部分，”Facebook人工智能研究总监LeCun说：“吸引人的是优秀的同事。实验室里有影响力的人越多，对他人的吸引力就越大。事情开始是最难的，你必须吸引几个人，这几个人必须要吸引其他年轻人。还好我们这个阶段很快就过去了。”

Facebook基础设施建立在商用X86硬件上。Parikh被委派了一个任务，辅助将大型基础设施公司和供应商（如AT＆T，高盛，谷歌，IBM，英特尔和微软）组织到一个称为“开放计算项目”的开源硬件社区当中。该组织促进标准化计算和通信硬件，满足平台公司非常具体的大规模需求，减少数据中心资本和运营成本。

去年12月，Facebook通过发布商品硬件来源的Big Sur AI计算服务器规范，将开源硬件模型应用于AI硬件。Big Sur采用Nvidia的GPU构建，是第一个用于大规模生产数据中心工作负载的商用AI计算服务器，有44Teraflops的ML计算能力。

Facebook及其开源合作伙伴希望影响用于在智能和数据中心运行推理的AI优化硬件的开发，并优化ML培训阶段的基础设施。除非有像X86和ARM架构一样的生态系统，一个速度更快的新型AI芯片也只能成为部分解决方案，短瞬即逝。因此，尽管Facebook、谷歌、微软和IBM的数据中心是硬件供应商的重要业务，但Facebook还是希望让更多的成功ML开发者社群参与进来，激励英特尔、英伟达和Qualcomm优化硬件。

Facebook应用机器学习小组主任Joaquin Candela喜欢用一个比喻描述Facebook迭代、学习和创新AI目标的速度。“如果你砍掉一个螺旋桨飞机的发动机，它会继续飞行，但砍掉一个发动机后，像F16这样的现代喷射机就不稳定了，”她说：“你需要两个发动机和一个控制系统将不稳定的系统变稳定。而且你还需要以超快的速度进行操作。在F16上面你能实现螺旋桨飞机永远也做不到的事情。”

在花了一些时间与Facebook的AI工程主管和管理高层打交道后，F16的隐喻就感觉很自然了。这些人都深信，减缓创新的步伐，让今天的Facebook平台继续滑行，最终将会结束公司迄今为止连续12年的成功飞行。他们必须重新创建Facebook，让平台拥有类似人类的智能，为用户提供更灵活和更快的体验。

而实现这些需要在三个维度上努力：学术研究、产业部署和硬件基础设施。

“嘿，Facebook（对话代理唤醒指令），AI创新是什么样子的？”

中频治疗仪
脚静脉曲张怎样治疗
经期延长量少有血块