JeffDean亲笔盘点谷歌AI2019日均2篇论文纵横16大方向一文聚集重要开源算法

时间:2020-01-10 16:56:57  阅读:5436+ 作者:责任编辑。陈微竹0371

编者按:本文来自微信大众号“量子位”(ID:QbitAI),作者 乾明 边策 十三 郭一璞 ,36氪经授权发布。

又一年,Jeff Dean代表Google AI,总结曩昔一年AI大趋势。

这是姐夫作为Google AI大总管的例行年度陈述,也是全球AI——甚至前沿技能榜首大厂的肌肉展现。

他说,曩昔的2019年,是十分激动人心的一年。仍旧是学术和运用两开花,开源和新技能同步推动。

从基础研讨开端,到技能在新式范畴的运用,再到展望2020。尽管陈述格局没有改变,但人工智能技能,又往前迈出了一大步。

Jeff Dean总结了16个大方面的AI效果,并泄漏全年AI论文宣布数达754篇,均匀每天都有2篇论文宣布。

包含AutoML、机器学习算法、量子核算、感知技能、机器人、医疗AI、AI向善……

桩桩件件,不只在当时推动了AI效果社会方方面面,而且也是对未来趋势的小小展现。

毫不夸大地说,欲知2019 AI技能开展,看Jeff这篇总结再适宜不过;欲知2020 AI会走向何方,看Jeff这篇也能获益良多。

为了便利阅览,咱们先整理了一个小目录给你:

机器学习算法:了解神经网络中动态练习性质

AutoML:持续重视,完结机器学习主动化

天然言语了解:结合多种办法、使命,前进技能水平

机器感知:对图画、视频、环境更深入了解和感知

机器人技能:自监督办法练习,发布机器人测验基准

量子核算:初次完结量子优越性

AI在其他学科的运用:从苍蝇的脑子到数学,还有化学分子研讨和艺术创作

手机AI运用:本地布置的语音、图画辨认模型,还有更强的翻译、导航和摄影

健康和医疗:已用于乳腺癌、皮肤病的临床确诊

AI辅佐残障人士:用图画辨认、语音转写技能谋福弱势群体

AI促进社会公益:预告洪水、维护动植物、教小朋友识字学数学,还砸了1个多亿做了20个公益项目

开发者东西打造和谋福研讨者社区:TensorFlow迎来全面晋级

敞开11个数据集:从强化学习到天然言语处理,再到图画切割

顶会研讨和Google研讨的全球扩张:宣布很多论文,投入很多资源赞助教师、学生和各方面研讨人员进行研讨

人工智能品德:推动人工智能在公正、隐私维护、可解释性方面研讨开展

展望2020年及今后:深度学习革新将持续重塑咱们对核算和核算机的观点。

机器学习算法

2019年,Google在机器学习算法和办法的许多不同范畴进行了研讨。

一个首要的焦点是了解神经网络中动态练习的性质。

在下面这项研讨中,研讨人员的试验成果标明,缩放数据并行量可以让模型收敛更快有用。

论文地址:https://arxiv.org/pdf/1811.03600.pdf

与数据并行性比较,模型并行功可以是扩展模型的有用办法。

GPipe是一个可以让模型并行化愈加有用的库:

当整个模型的一部分在处理某些数据时,其他部分可以做其他作业,核算不同的数据。

这种pipline办法可以组合在一起,来模仿更有用的batch巨细。

GPipe库地址:https://ai.googleblog.com/2019/03/introducing-gpipe-open-source-library.html

当机器学习模型可以获取原始输入数据,并学习“disentangled”高档标明方式时,它们是十分有用的。

这些标明方式经过用户期望模型可以区别的特点来区别不同品种的示例。

机器学习算法的前进,首要是为了鼓舞学习更好的标明法,以此来推行到新的示例、问题及范畴。

2019年,Google在不同的布景下研讨了这方面的问题:

比方,他们查看了哪些特点影响了从无监督数据中学习的标明,以便更好地了解什么要素可以有助于杰出的标明和有用的学习。

博客地址:https://ai.googleblog.com/2019/04/evaluating-unsupervised-learning-of.html

Google标明可以正常的运用margin散布的核算量来猜测泛化距离,有助于了解哪种模型最有用地进行了泛化。

除此之外,还在强化学习的布景下研讨了Off-Policy分类,以便更好地了解哪些模型或许泛化得最好。

博客地址:http://ai.googleblog.com/2019/07/predicting-generalization-gap-in-deep.html

研讨了为强化学习指定奖赏功用的办法,使学习体系可以更直接地从实在方针中进行学习。

博客地址:http://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

AutoML

Google在2019年仍然持续重视着AutoML。

这种办法能轻松完结机器学习许多方面的主动化,而且在某些类型的机器学习元决议计划方面,一般可以获得更好的成果,比方:

Google展现了怎么运用神经结构查找技能,在核算机视觉问题上获得更好的成果,其在ImageNet上的正确率为84.4%,而参数比曾经的最佳模型少8倍。

博客地址:http://ai.googleblog.com/2019/05/efficientnet-improving-accuracy-and.html

Google展现了一种神经架构查找办法,展现了怎么找到合适特定硬件加快器的高效模型。然后为移动设备供给高精度、低核算量的运转模型。

博客地址:http://ai.googleblog.com/2019/08/efficientnet-edgetpu-creating.html

Google展现了怎么将AutoML作业扩展到视频模型范畴,怎么找到可以完结最先进成果的架构,以及可以匹配手艺模型功能的轻量级架构。

成果使核算量削减了50倍。

博客地址:http://ai.googleblog.com/2019/10/video-architecture-search.html

Google开发了用于表格数据的AutoML技能,并协作发布了这项技能,作为Google Cloud AutoML Tables的新产品。

博客地址:http://ai.googleblog.com/2019/05/an-end-to-end-automl-solution-for.html

展现了怎么在不运用任何练习过程,来更新被评价模型的权重的情况下,找到风趣的神经网络架构,让结构查找的核算功率更高。

博客地址:http://ai.googleblog.com/2019/08/exploring-weight-agnostic-neural.html

探究了发现NLP使命的体系结构。这些使命的功能显着优于一般的Transformer模型,而且大幅度的降低了核算成本。

博客地址:http://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

研讨证明了主动学习数据增强办法可以扩展到语音辨认模型中。

与现有的人类ML-expert驱动的数据增强办法比较,可以在较少数据情况下获得了明显更高的准确性。

博客地址:http://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

推出了榜首款运用AutoML进行关键字辨认和白话识其他语音运用程序。

在试验中,发现了比人类规划更好的模型:功率更高,功能也更好。

博客地址:https:///Conferences/2019

此外,他们也开源了用于构建感知和多模态运用ML pipelines的结构MediaPipe:

https://github.com/google/mediapipe

以及高效浮点神经网络推理操作符库XNNPACK:https://github.com/google/XNNPACK

当然,Google还放出了一些羊毛给咱们薅。

Jeff Dean介绍称,截止2019年末,他们让全球超越1500名研讨人员经过 TensorFlow Research Cloud 免费访问了Cloud TPU,他们在 Coursera 上的入门课程已经有超越了10万名学生等等。

一起,他也介绍了一些“暖心”事例,比方在 TensorFlow 的协助下,一名大学生发现了两颗新的行星,并树立了一种办法来协助其他人发现更多的行星。

还有大学生们运用 TensorFlow 来辨认洛杉矶的坑洞和风险的路途裂缝等等。

另一方面是在敞开数据集上。

敞开11个数据集

2018年发布了数据集查找引擎后,Google本年仍旧在这方面尽力,并尽自己的尽力,给这个查找引擎添砖加瓦。

曩昔一年,Google在各个范畴敞开了11个数据集,下面开端资源大放送,请收好~

Open Images V5,在注释会集参加切割掩码(segmentation masks),样本规划到达280万,横跨350个类别,量子位报导:280万样本!Google敞开史上最大切割掩码数据集,敞开新一轮挑战赛

“天然问题”数据集,榜首个运用天然发生的查询,并经过阅览整个页面找到答案的数据集,而不是从一小段中提取答案,30万对问答,BERT都达不到70分,量子位报导:

Google发布超难问答数据集「天然问题」:30万对问答,BERT都达不到70分

用于检测deepfakes的数据集:

https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html

足球模仿环境Google Research Football,智能体可以在这个宛如FIFA的国际里自在踢球,学到更多踢球技巧,量子位报导:Google造了个虚拟足球场,让AI像打FIFA相同做强化学习练习丨开源有API

地标数据集Google-Landmarks-v2:包含500万张图片,地标数量到达20万,量子位报导:

500万张图片,20万处地标景色,Google又放出大型数据集

YouTube-8M Segments数据集,一个大规划的分类和时刻定位数据集,包含YouTube-8M视频5秒片段级其他人工验证标签:

https://ai.googleblog.com/2019/06/announcing-youtube-8m-segments-dataset.html

AVA Spoken Activity数据集,一个多模态音频+视觉视频的感知对话数据集:

https://research.google.com/ava/

PAWS和PAWS-X:用于机器翻译,两个数据集都由高度结构化的语句对组成,而且相互之间的词汇堆叠度很高,其间约占一半的语句具有对应的多言语释译:

https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html

让两个人进行对话,经过数字帮手模仿人类的对话的天然言语对话数据集:

https://ai.googleblog.com/2019/09/announcing-two-new-natural-language.html

Visual Task Adaptation Benchmark:这是对标 GLUE、ImageNet,Google推出的视觉使命适应性基准。

有助于用户更好地了解哪些哪些视觉表征可以泛化到更多其他的新使命上,然后削减一切视觉使命上的数据需求:

http://ai.googleblog.com/2019/11/the-visual-task-adaptation-benchmark.html

最大的面向使命的对话的揭露数据库——形式引导对话数据集,有跨过17个域的超越18000个对话:

http://ai.googleblog.com/2019/10/introducing-schema-guided-dialogue.html

顶会研讨和Google研讨的全球扩张

依据Google官方核算,Googler在曩昔一年宣布了754篇论文。

Jeff Dean也列举了一些顶会战绩:

CVPR有40多篇论文,ICML有100多篇论文,ICLR有60多篇论文,ACL有40多篇论文,ICCV有40多篇论文,NeurIPS有超越120篇等等。

他们还在Google举办了15个独立的研讨会,主题从改进全球洪水预警,到怎么运用机器学习来树立更好地为残疾人服务的体系,到加快开发用于量子处理器(NISQ)的算法、运用程序和东西等等。

并经过年度博士奖学金项目在全球赞助了50多名博士生,也对创业公司供给了支撑等等。

相同,2019年Google研讨地址仍旧在全球扩张,在班加罗尔开设了一个研讨办公室。一起,Jeff Dean也发出了招聘需求:如果有爱好,赶忙到碗里来~

人工智能品德

和从前相同,这篇报导最开篇,其实Jeff首要谈到的便是Google在人工智能品德上的作业。

这也是Google在AI实践和品德品德、技能向善方面的清晰宣示。

2018年,Google发布了AI 七准则并环绕这些准则打开运用实践。2019年6月,Google交出成绩单,展现了怎么在研讨和产品开发中,将这些准则付诸实施。

陈述链接:https:///2019/03/exploring-neural-networks.html

另一方面,Google的尽力也都落到了实处,实在的拿出了的产品。

比方,发布了TensorFlow Privacy,来协助练习保证隐私的机器学习模型。

相关链接:Introducing TensorFlow Privacy: Learning with Differential Privacy for Training Datahttps://blog.tensorflow.org/2019/03/introducing-tensorflow-privacy-learning.html

此外,Google还发布了一个新的数据集,以协助研讨辨认deepfakes。

相关链接:Contributing Data to Deepfake Detection Researchhttps://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html

展望2020年及今后

最终,Jeff也站在曩昔10年的开展进程上,对2020年及今后的研讨意向进行了展望。

他说,在曩昔的十年里,机器学习和核算机科学范畴获得了明显的前进,咱们现在让核算机比以往任何时候都更有才干去看、听和了解言语。

在咱们的口袋里,有了杂乱的核算设备,可经过这些才干,更好地协助咱们完结日常日子中的许多使命。

咱们环绕这些机器学习办法,经过开发专门的硬件,从头规划了咱们的核算渠道,使咱们也可以处理更大的问题。

这些这改变了咱们对数据中心中的核算设备的观点,而深度学习革新,将持续重塑咱们对核算和核算机的观点。

与此一起,他也指出,还有很多未处理的问题。这也是Google在2020年及今后的研讨方向:

榜首,怎么构建可以处理数百万使命的机器学习体系,并可以主动成功地完结新使命?

第二,怎么才干在人工智能研讨的重要范畴,如防止成见、前进可解释性和可了解性、改进隐私和保证安全等方面,获得最先进的开展?

第三,怎么运用核算和机器学习在重要的科学新范畴获得开展?比方气候科学、医疗保健、生物信息学和许多其他范畴等等。

第四,关于机器学习和核算机科学研讨社区寻求的思维和方向,怎么保证有更多不同的研讨人员提出和探究?咱们怎么才干最好地支撑来自不同布景的新研讨人员进入这一范畴?

最终的最终,你怎么看Google AI在曩昔一年的打破与开展?

作者系网易新闻·网易号“各有情绪”签约作者