CMU、斯坦福等知名AI实验室、团队AI成果大总结

发布时间：2021-11-01 16:04:21 所属栏目：大数据来源：互联网

导读：【新智元导读】本文总结了2018年里，学术界各大AI大咖、知名实验室的杰出成果，包括Hinton、LeCun、吴恩达、谷歌、MIT、UC Berkeley等。 2018年，AI的发展可谓是大步向前。这离不开学术界的实验室和科研团队不懈的努力。本文总结了2018年，各个AI大咖、知名

8月初，同柏林工业大学的研究人员在最新发表的论文Backprop Evolution (https://arxiv.org/pdf/1808.02822.pdf )，提出一种自动发现反向传播方程新变体的方法。该方法发现了一些新的方程，训练速度比标准的反向传播更快，训练时间也更短。

Ian等人还提出了对抗正则化方法（https://arxiv.org/pdf/1807.07543v2.pdf ）显著改善了自编码器的平滑插值能力，这不仅能提高自编码器的泛化能力，对于后续任务的表征学习也会大有帮助。

此外，Ian和Augustus Odena共同提出了一种新方法覆盖引导模糊测试（coverage guided fuzzing，CGF），将其应用于神经网络的测试（https://arxiv.org/pdf/1808.02822.pdf ），该方法能够自动Debug神经网络。Goodfellow表示，希望这将成为涉及ML的复杂软件回归测试的基础，例如，在推出新版本的网络之前，使用fuzz来搜索新旧版本之间的差异。此外开源了名为TensorFuzz的CGF软件库。

在11月的时候公开了一篇论文“Simple, Distributed, and Accelerated Probabilistic Programming”(https://arxiv.org/pdf/1811.02091v1.pdf )，发表于NIPS 2018。论文提出了一种简单的方法，用于将概率编程嵌入到深度学习生态系统。这种简单分布式、加速的概率编程，可以将概率程序扩展到512个TPUv2、1亿+参数的模型。

年底的NeurIPS 2018上，密歇根大学和谷歌大脑的研究人员提出了一种新的面向NLP任务的机器学习新架构（https://papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf ），不仅能够根据给定的实例生成句子，而且能够在保留句子意思的情况下，改变句子表达的感情、时态、复杂度等属性。

今年初，CMU联合谷歌大脑、谷歌 AI 发表了一篇论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(https://arxiv.org/pdf/1901.02860v1.pdf )。Transformer 网络具有学习更长期依赖性的潜力，但这种潜力往往会受到语言建模中上下文长度固定的限制。在此论文中，研究人员提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题，它可以在不破坏时间一致性的情况下，让 Transformer 超越固定长度学习依赖性。

Facebook : FAIR（Facebook’s Artificial Intelligence Research）

五年前，Yann Lecun创立了 Facebook 人工智能研究院（FAIR），旨在通过开放研究推进人工智能的发展，并惠及所有人。FAIR 的目标是理解智能的本质，以创造真正的智能机器。自此以后，FAIR 不断发展，并成长为一个国际研究组织，在门洛帕克、纽约、巴黎、蒙特利尔、特拉维夫、西雅图、匹兹堡、伦敦都设有实验室。人工智能已经成为 Facebook 的核心，因此 FAIR 现在是更大的 Facebook AI 组织的组成部分，该组织致力于人工智能研发的各个方面，从基础研究到应用研究和技术开发。

FAIR团队经常早早地发布前沿研究成果，并尽可能地开源研究代码、数据集和工具（如 PyTorch、fastText、FAISS、Detectron）。这种方法也成功地推动了人工智能的研究发展。今年，FAIR 的研究人员已经获得了广泛认可，在 ACL、EMNLP、CVPR、ECCV 等大会获得了最佳论文奖，在 ECCV、ICML 和 NeurIPS 会议上获得了时间检验奖（Test of Time award）。开放的工作可以让每个人在人工智能领域取得更快的进步。

4月初，FAIR 研究人员提出两种机器翻译模型的变体，一种是神经模型，另一种是基于短语的模型。研究者结合了近期提出的两种无监督方法，并简化了结构和损失函数，得出的新模型性能更优，且易于训练和调参。

5月13日，开源了围棋 AI ELF OpenGo训练模型及代码，它基于现有的强化学习研究平台 ELF，击败了世界围棋冠军。

6月19日，FAIR开源了 DensePose，这是一个能将人体所有像素的 2D RGB 图像实时映射到 3D 人体模型的应用。这一模型利用 COCO 数据集中 50K 张密集型人体对应关系的标注，并在有遮挡和尺度变换等自然情况下能准确实现密集型人体姿态估计。

11月初，FAIR 和纽约大学的研究者合作开发了一个新的自然语言推断语料库 XNLI，该语料库将 MultiNLI 的测试集和开发集扩展到 15 种语言，包括斯瓦西里语和乌尔都语等低资源语言。XNLI 是跨语言句子理解的基准，实际可用且具备一定难度，有助于带来更好的跨语言理解方法。

在年底，FAIR宣布推出 PyText 的开源版本，它是Facebook正在使用的主要自然语言处理（NLP）建模框架，目前每天在为 Facebook 及其应用程序系列的用户提供超过 10 亿次 AI 任务处理；同时FAIR开源了全卷积语音识别工具包wav2letter++。

今年年初，FAIR Alexander Kirillov、何恺明等人在《Panoptic Feature Pyramid Networks》(http://cn.arxiv.org/pdf/1901.02446v1 )提出全景特征金字塔网络。该论文提出的全景特征金字塔网络结合了分别用于语义分割和实例分割的 FCN 和 Mask R-CNN，在两种任务基线上有很好的稳健性和准确率。

MIT : CSAIL(Computer Scienceand Artificial Intelligence Laboratory)

MIT的CSAIL最初是两个实验室：计算机实验室创办于1963年，人工智能实验室创办于1959年，两个实验室在2003年正式合并。CSAIL是MIT最大的实验室，也是世界上最重要的信息技术研发中心。CSAIL的成员创立了多于100家知名公司，包括机器人之父科林·安格尔，iRobot公司创始人之一海伦·格雷纳，波士顿动力公司创始人马克·雷伯特，还有卡内基·梅隆大学机器人研究所的负责人马特·梅森。

4月初，CSAIL研发出一种名为Pixel Player系统（https://arxiv.org/abs/1804.03160 ），能够通过大量无标签的视频来学习声音定位，更强大的是，Pixel Player能够把声音与声源的像素点进行分离，并完美做到视觉与声音的同步，“想听哪里点哪里”。同时，利用Pixel Player系统，用户能够对图像中不同的声音分别进行音量调节，实现简单的音频编辑。

此外还提出了一款名为 RoadTracer 的道路采集系统。针对道路交汇路段，RoadTracer 的采集准确率能达到 45%，远高于传统图像分割方法的 19%。

5月初，CSAIL1的研究人员开发了一种全新的系统 MapLite，这种系统允许无人车在不依赖 3D 地图的情况下，在未知的道路上驾驶。此外，该系统还能将 Google 地图上的 GPS 数据与一系列传感器收集到的路况信息结合起来。

7月，CSAIL和电子工程与计算机科学系( EECS )的研究人员开发了一种模型用于更有效的选择先导分子。该模型输入分子结构数据，创建分子图片，详细展示分子结构，节点代表原子，边线代表化学键。这些图又被分解成更小的有效官能团簇，成为“构件”，用于实现更精确的分子重构和修饰。

8月，CSAIL正式发布编程语言Julia 1.0，这门由MIT CSAIL 实验室开发的编程语言结合了 C 语言的速度、Ruby 的灵活、Python 的通用性，以及其他各种语言的优势于一身，并且具有开源、简单易掌握的特点。

10月4日，CSAIL和QRCI（卡塔尔计算研究所）宣布研究出一种可以识别虚假新闻在传播前的来源和个人政治偏见的AI系统。他们所使用的机器学习算法利用现有文章集合来衡量给定出口的准确性和偏差，该系统或可将不可信赖的新闻信息自动分类。

在12月发表的论文《Deep sequential models for sampling-based planning》（https://arxiv.org/abs/1810.00804 ）中，研究人员展示了他们的模型在两个环境中的优势：通过具有陷阱和狭窄通道的具有挑战性的房间导航，以及在避免与其他Agent碰撞的区域导航。一个有前途的现实世界应用程序正在帮助自动驾驶汽车在十字路口行驶，在那里他们必须在并入交通之前快速评估其他汽车将做什么。目前，研究人员正通过丰田凯撒尔联合研究中心来研究这些应用。

NeurIPS 2018中，CSAIL和谷歌的研究人员发表了一篇论文，描述了一个能够生成具有逼真纹理的人工智能系统——视觉对象网络（Visual Object Networks，VON），不仅生成的图像比当前最先进的方法还要逼真，还可以进行形状和纹理编辑、视角转换以及其它3D调整。

UC Berkeley : BAIR(Berkeley Artificial Intelligence Research)

加州大学伯克利分校的人工智能研究室（Berkeley Artificial Intelligence Research）主要研究领域涵盖计算机视觉、机器学习、自然语言处理、规划和机器人等（computer vision,machine learning,natural language processing, planning, and robotics）。其中的机器人和智能机器实验室，致力于用机器人复制动物的行为。其自动化科学和工程实验室从事更广泛的机器人功能的研究，如机器人辅助外科手术和自动化制造。还有计算机可视化小组，学生可以学到如何帮助机器人能“看得见”。

4月的时候，BAIR介绍了他们对于运动建模的最新研究成果DeepMimic模型，他们使用动作捕捉片段训练自己的模型。训练中着力减小跟踪误差并采用提前终止的方法来优化训练结果。训练模型最终表现优秀。

6月，BAIR发表博客论文《Delayed Impact of Fair Machine Learning》，讨论了静态公平性准则的长期影响，发现结果和人们的期望相差甚远。相关论文被 ICML 2018 大会接收（https://arxiv.org/pdf/1803.04383.pdf ）。

（编辑：萍乡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页