【深度学习框架大PK】褚晓文教授:五大深度学习

亚博手机pt娱乐-亚博国际pt客户端-www.yabo920.com

HOTLINE

400-123-4567
网站公告: 欢迎光临本公司网站!
团队三类 当前位置: 亚博手机pt娱乐 > 外教团队 > 团队三类 >

【深度学习框架大PK】褚晓文教授:五大深度学习

文章来源:    时间:2019-01-22

 

  大深度学习框架三类神经网络全面测评(23PPT原标题:【深度学习框架大PK】褚晓文教授:五)

  ensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现》【新智元导读】香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告《基准评测 T,年年初发布更新并在2017,泛关注引起广。专访中在本次,个工具的优势和劣势褚晓文教授介绍了各,起对GPU的影响并谈到了TPU崛。ICC大会上的演讲实录和PPT本文后半部分是褚晓文教授在A。

  6年推出深度学习工具评测的研究报告香港浸会大学褚晓文教授团队在201,年年初发布更新并在2017,泛关注引起广。、MXNet、Torch 在三类流行深度神经网络上的表现(论文)》见新智元报道《基准评测 TensorFlow、Caffe、CNTK,测的主要发现可概括如下2017年初版本的评:

  体上总,并无很好的可扩展性多核CPU的性能。验结果中在很多实,仅比使用4核或8核稍好使用16核CPU的性能。U环境有相对较好的可扩展性TensorFlow在CP。

  数据并行化通过将训练,卡的深度学习工具这些支持多GPU,吞吐量提升都有可观的,度也提高了同时收敛速。卡环境下多GPU,exNet上的可扩展性更好CNTK平台在FCN和Al,ch在CNN上相当出色而MXNet和Tor。

  核CPU比起多,台效率更高GPU平。用GPU达到显著的加速所有的工具都能通过使。

  中(GTX980在三个GPU平台,1080GTX,中的一颗GK210)Tesla K80,于其计算能力最高GTX1080由,果中性能最出色在大多数实验结。

  度上而言某种程,置文件的影响性能也受配。如例,调整系统配置文件CNTK允许用户,PU内存间取舍在运算效率和G,uDNN库的自动设置进行调整而MXNet则能让用户对c。

  年9月7日2017,能计算大会(AI Computing Conference中国工程院信息与电子工程学部主办、浪潮集团承办的首届人工智,CC)上简称AI,ep Learning Software Tools》的报告并接受了 新智元的独家专访褚晓文教授发表题为《Benchmarking State-of-the-Art De。的起源以及其中涉及的技术点他在采访中提到了这一项目,网络的计算原理等特别是深度学习。

  授介绍说褚晓文教,从事GPU计算方面的科研工作其团队从2008年开始就开始,015年的时候在2014到2,度学习这个领域开始接触到深,个并行的深度学习平台那个时候为了开发一,用都有了一个比较深入的了解对整个深度学习的原理和应,前期的基础这是一个。

  6年的时候到了201,留意到他们就,习平台开始开源了突然就很多深度学。了以后工具多,界的接触了解到他们通过与工业,个困惑:工具很多大家经常会有一,也很多硬件,的GPU卡各种各样,到4、5万都有从4、5千块钱。?这个问题很复杂该如何进行选择,难回答也很。始跟学生一起所以他就开,的比较的工作做了一些初步。

  提的是值得一,源的项目这是一开,到代码和测试的数据所有人都可以下载,的很清楚文档也写,以重复实验大家都可。发布至今所以从,收到了大量的反馈褚晓文教授他们也,进行了优化迭代并对测评结果。评报告会在近期公布今年最新版本的测,对此保持关注新智元也将。

  访中在专,组所作测评的几个框架进行了介绍我们邀请褚晓文教授对其科研小,w、CNTK 和MXNet他分析了TensorFlo。

  说他,w是目前关注量最多的TensorFlo,TensorFlow这个平台可能有80%的用户会选择用。大的优势在于它的社区很成熟TensorFlow 最,的人多因为用,论的也多大家讨,困难遇到,的可能性也会更高一点能找到帮你解决困难。w自身是一个很大的框架但是TensorFlo,源的TensorFlow版本还是需要用户来合理的分配硬件资源)它的设计初衷在使用硬件资源上面是一个自动化的过程(注:目前开。

  教授说褚晓文,此由,问题:性能可能未必是它最关注的一点TensorFlow可能会有一个。认为他也,上有着更深的布局谷歌在底层硬件,件上的投入他们在硬,他的工具给不了的可能是目前是其。更依赖于GPU“ 其他的工具。重点放在GPU这一块我觉得谷歌并不把它的,是说反而,TPU好了直接用我的。不是主要来做训练当然第一代TPU,数乘法运算做一些推理而是使用8-bit整,支持浮点运算进行训练了而第二代TPU已经开始,PU就会带来更大的挑战”将来如果大量开放的话对G,教授说褚晓文。

  场上已经占到到百分之七十到八十目前TensorFlow在市。么那,会出现垄断未来会不,的深度学习框架或者一个大一统。教授认为褚晓文,拢到两三个慢慢的会收,仅有一个但是不会。是说也就,大一统的工具不会出现一个,三个大的工具存在但是可能会有两。

  教授个人比较喜欢的CNTK是褚晓文。绍说他介,非常重视的一个项目微软对CNTK也是,很多的专家也投入了,也非常快而且更新。版的测试里面“在我们多,都是性能最好的之一CNTK很多情况下,是多卡的情况不管是单卡还,以说所,非常看中性能这一块”微软我觉得他可能是,教授说褚晓文。

  ow拥有如此大的体量了因为TensorFl,TK要追赶所以CN,是性能方面注重的就。它的复杂性在里面当然CNTK有,得好的性能因为要取,过多次的调试一定是要经,写脚本的时候或者说当在,这个框架要很熟悉,这个硬件很熟悉,内存分配等等很熟悉这个,个性能的极致才可以达到这。

  要取得好的性能他说:“所以你,面需要多花一些功夫在上面一定可能是在开发周期上。论如何但是无,测结果来讲从我们的评,TKCN,能最好的的确是性,的配合是很紧的而且他跟英伟达,放出来新的库英伟达一旦,的硬件或者新,就会跟进微软马上,的CNTK去更新他们。”

  文说褚晓,能其实也相当好的MXNet的性,K差距不大跟CNT。面也是非常出色的它在可扩展性方。的比较晚因为出来,是怎么做扩展性它可能的重点就,一放出来比如说它,多卡的集群下面很方便的使用就已经直接可以在多卡和多机,et的一个优势这个是MXN。

  评对“性能”的重视褚晓文特别强调了测,能为主要标准的评测基本上这是一个以性。是但,过程中在这个,现一些问题他们也发,如比,对硬件的依赖性CuDNN本身,类型的GPU卡是有一个匹配问题的不同版本的 CuDNN 跟不同。

  注的AI专用芯片针对今年备受关,度学习工具的支持比如TPU对深。教授说褚晓文,上来讲在训练,还是主流GPU,现是离不开软件的配套的因为任何一个硬件的出,软件配套如果没有,的一些网络做优化硬件只能是为已知,的网络出现如果有新,够适应新的软件结构的那这个硬件是否还能,络结构新的网,未知的这个是。

  于一些比较成熟的神经网络这些AI芯片可能得是基,网络做一些优化针对那些已知的。一个颠覆性的网络结构但是如果将来万一有,种计算模式出现或者颠覆性的一,也要重新来过那你的硬件。厂商要考虑的一个问题这个可能是AI芯片。

  是永远离不开软件支撑的褚晓文教授说:“硬件,的成功GPU,8年到现在就是从0,大量的软件人才这么多年培养了,投入是相当大的他们在这方面的,迟迟追赶不上的原因这也是为什么AMD,个软件的生态AMD缺乏一。”

  是但,条件来看从目前的,工具性能上的提升是肯定的专用AI芯片对深度学习。是在指数级增长因为数据量还。

  教授认为褚晓文,来看目前,简单的训练比如说最,掉大量的时间还是需要花,PU的瓶颈而且单G,度跟不上数据的增长还是在于它的增长速,更专用的种芯片所以一定还是要。

  的最后采访,元问新智,中选择一个进行推荐如果要从这些工具,表示:“我一般不会推荐会推荐哪个?褚晓文教授,中立的一个角度去看因为我们是一个比较,框架都有它的价值我认为任何一个,借鉴的地方都有可以,的角度从实际,选择要结合你的业务需求对于工程师来讲其实你。”

  是但,有太多经验的人的话如果对于这种本身没,nsorFlow他还是推荐Te。为因,文档它的,比较顺利一些相对来说都会,来相对容易一些而且它开发起。

  嘉宾各位,生们先,中午好女士们,我来参加这个大会非常感谢浪潮邀请,度学习各种工具性能测试方面的工作今天我想跟大家分享一下我们在深。的二十分钟今天在短短,十年里我们CPU和GPU的发展我想花一半时间跟大家回顾过去,主流的深度学习软件工具接下来给大家介绍现在,学习软件工具的测试工作也就是浸会大学在深度,做这个工作及为什么。我们最新的测试结果最后跟大家简单汇报。

  入到我们的生活和工作之中深度学习在近年来已经深。层:最上面是层出不穷的各种应用深度学习这个生态圈大概分成三,nslate软件、讯飞的语音输入等等包括著名的AlphaGo、谷歌Tra,中会用到的软件这都是大家生活,、AI医疗、AI金融将来还会有无人驾驶。

  是但,必先利其器工欲善其事,核心一层就是生产工具深度学习的生态圈里。有各种各样的深度学习的平台开源大家可以看到从2011年开始,基本上是百花齐放的状态尤其从2015年开始。是原材料在最底层,样的硬件各种各,达的GPU包括英伟,些FPGA的公司英特尔收购了一,的TPU还有谷歌。

  主题是计算今天大会,天的成功完全离不开计算深度学习之所以达到今,享了很多深度学习里面的计算刚才孙剑先生已经跟大家分。很简单的两个矢量的点积运算一个神经元它要做的事情就是,决于权重有多少它的运算量取,元就要做很多计算仅仅是一个神经。接的神经网络这是一个全连,想象可以,候计算量有多庞大神经元很多的时。

  如比,亿的神经元在运作人的大脑有几百,个计算问题为了解决这,深度的神经网络近期流行的各种,降低了权重的数量比如卷积网络它就,还是有数以百万计的权重但是目前的主流神经网络,几十亿次的乘加运算做一次前向运算要做。以说所,度学习的基石计算力是深。

  如此重要既然计算,PU的发展到底是怎么样的我们需要回顾近十年来C,PU至强X5355是一款四核CPU2006年当时最强大的英特尔的C,是43个GFlops它的计算能力峰值当时,的是单精度运算也我们现在提,金CPU8180已经发展到28核今年 Intel 发布的最新白,2个TFlops计算峰值能达到。

  理能力提高了50倍过去11年CPU处,50倍是怎么来的大家可能想知道这,简单非常,量从4变到28第一它的核心数,倍的增长有了7。升来源于指令的宽度另外一个性能的提,理 2 个单精度的浮点运算2006年一条指令只能处,位的指令集今天512,16个单精度的浮点运算一条指令可以同时处理,倍的性能提升这就相当于8。就是这么来的50倍的提升,来了相当大的挑战这给软件从业者带,以及如何利用SIMD指令如果你不懂得如何利用多核,停留在十年前的水平那么你的性能就还。

  近十年的发展再看GPU在。是GPU性能红色这条线,是CPU的性能下面那条线还,英伟达的GPU这里讨论的是。用计算的GPU 8800GTX2006年英伟达第一次发布通,了500个GFlops当时它的性能已经达到,来十年接下,算能力一直维持在10-15倍的比例大家可以看到GPU相对CPU的计,到15个TFlops的单精度的性能今年英伟达提出的V100性能已经达。两条曲线非常吻合大家有没有发现这,过为什么有没有想?

  已经提到摩尔定律今天前面很多嘉宾,尔定律在掌控一切根本原因就是摩,体管数量它的增长每隔两年大概翻一倍摩尔定律说的就是你的芯片里面的晶,芯片的工艺这个取决于。CPU和GPU的性能的提升所以每次工艺的进步都会带来。

  达最近的七代GPU的产品这张表给大家展示了英伟,在一起把它放,PU核只有128个从2006年它的G,有超过5300个核芯今天Volta已经,了不起的突破这是个相当。

  的内存的带宽大家要留意它,曼的瓶颈问题就是内存的问题刚才孙剑给大家共享了冯诺伊,是在发展的内存技术也,远低于计算核心的发展但是它的发展速度远。Flops提升到900个GFlops过去11年里面内存的带宽从57个G,内存技术的突破还得多谢3D,仅考虑GDDR内存的话如果不考虑3D内存而仅,仅仅只有8倍它的性能提升。存带宽仅仅提升了15-16倍所以说在过去的11年里面内,了30-50倍而计算能力提升,性能之间的距离在逐渐扩大这说明内存的性能跟计算的。面临的一个巨大的挑战这也是GPU计算今天,对薄弱的内存访问之间的一道鸿沟这个挑战就是巨大的计算能力和相。

  象一下大家想,个时钟周期可以做1到2个浮点运算现在的这些GPU或者CPU它每一,的能力这是它,算数据从哪里来但是每做一次运,哪里去数据往,少2个数据读取的操作每一次运算都需要至,到某个地方去把结果写回,数据的传输这都涉及到。天面临的一个巨大的问题所以内存的的确确是今。

  内存需要多长时间我们还没有讲访问。局内存读到处理器里面需要几百个时钟周期通常来讲当你要做计算的时候那个数据从全,慢的过程是非常缓。的带宽内存,080来举例拿GTX1,到了8个TFlops它的计算能力已经达,300个GB/s内存带宽仅仅有。

  U线程要做一次运算假设你的一个GP,内存读取数据首先要从全局,期的时间才能拿到数据经过400个时钟周,处理数据得到结果花20个时钟周期,周期写到内存里面去再把结果再花400,们的GPU大部分时间是在等待的所以单从一个线程的角度来看我。

  这个问题为了解决,的解决方案当然有很多,复杂的内存架构GPU用了非常,塔型的架构是一个金字,常快的寄存器最顶层是非,级的Cache它下面还有L1,的Cache还有L2级,d Memory还有Share。对程序员是不透明的CPU的Cache,那些Cache程序员不能控制,red Memory是可以被程序员控制的GPU计算领域这些Cache 和 Sha,设计空间非常庞大GPU架构里软件,U程序是一门艺术设计一个好的GP。

  :硬件和软件同样重要我想带给大家的信息是,件是不够的仅仅有硬,效能是发挥不出来的没有好的软件硬件的,习软件它们的性能有如此大的差异这也是为什么今天有这么多深度学。

  软件在近年来的发展接下来看深度学习。很流行的软件Torch是,年就有了2002,有深度学习那时候还没。学习做进去了后来把深度。是Caffe2014年就,开源了CNTK微软2015年,他们相应的开发平台接下来谷歌也开源了。的粉丝数量第三行是它,ow的粉丝团是最庞大的目前Tensorfl,多个关注有6万,来讲相对,有Tensorflow有影响力CNTK、Caffe加起来还没。平台的维护情况最底下是开发,件的提升随着硬,法的提出新的算,不断的更新换代的每个软件都是要,w的更新是非常频繁的Tensorflo,就会有一个新的更新基本上每一两个月,软件平台的投入代表着他们对。

  工作在软件平台后面的程序员我特别想感谢所有默默无闻的,今天的深度学习没有他们就没有。发者有50%以上是中国人让我非常自豪的是这里的开。

  实是很痛苦的选择太多其,个领域的创业者来讲尤其是对刚刚进入这,的GPU这么多,该选哪一个?其实要选择一个好的软件框架有很多因素5千块钱的5万块钱的差别在哪里?这么多的软件平台,的稳定性、它的社区的支持等等包括它的性能、它的成本、它,它的性能这一个层面我们今天主要是关注。

  年就开始研究GPU计算其实我们是从2008,了深度学习软件的平台开发的项目在2014-2015年我们参与,习将会彻底改变我们的社会接下来我们就认识到深度学。怎么处理?所以我们在2016年5月就启动了关于深度学习平台的基准测试项目2015、2016年就开始出现了很多声音:这么多的软件、这么多的硬件该。目有两个目的我们这个项,度学习平台在不同的硬件平台上的运行性能 第一是要去以科学的态度测试这些不同的深,潜在的问题发现一些,研究课题来改善提高把其作为一些科学的。

  似的基准测试项目那时候也有一些类, 我们要保证我们的试验结果是可靠的但我们有三个非常显著的特点:1.,重复实现的一定要可。个开源的项目所以我们是一,全部是公开在网上供大家重复我们所有的源代码所有的数据;我们的测试是公平的2. 我们要保证,的公平尽可能,常有挑战性的工作其实这是一个非,计、它对数据的处理都不一样因为不同的软件工具它的设;是一个很长期的工作3. 我们希望这,一次测试就完了有的项目做了,去跟进没有再,个非常长期的工作而我们希望这是一,来新的硬件出来当有新的软件出,的基准测试里面供大家参考我们都会把他们加入到我们。

  不同的维度做了一些工作过去的一年里我们在四个,Tensorflow、MXNet以及Torch我们测试的软件工具包括Caffe、CNTK、,在五款测试工具我们暂时聚焦这。

  硬件方面在测试,些CPU的测试我们早期做了一,跟GPU做比较把它们的性能,距实在太大后来发现差,弃了在CPU上做测试所以近期我们已经放,测试了多款市面上比较流行的GPU已经没有太大的实际意义GPU我们,到高端的从低端的。括全连接的网络测试的网络包,网络以及RNN网络包括主流的深度卷积。用的公开的数据集测试的数据集我们,合成的假的数据当然我们自己,们有MINST真的数据里面我,AR10CIF,mageNet近期也包括了I。

  两种运算:如果你是一个全连接层深度神经网络的计算里最关键的是,要是矩阵乘法它的计算主,是卷积层如果你,算是卷积运算它的核心计。到超过80%的运算是来源于卷积运算在主流的深度卷积网络里大家可以看,一两层才用到全连接层一般的深度网络最后,深度学习里面最关键的核心技术所以这个卷积操作其实是现在。如何做卷积的心得体会刚才孙剑博士也分享了。四年中发表 的非常经典的学术论文大家有兴趣的话可以读一下最近三,和工业界的互动这就是学术界,慢慢流行开源现在学术界也,仅发表论文而且公开源代码他们有好的想法好的算法不,成到他们的library里面很快英伟达就会把他们的成果集。

  算为什么那么复杂简单讲一下卷积运,一个数学概念因为卷积是,千变万化它的实现,如何实现卷积运算有一本书专门讲,法:第一是通过矩阵运算目前最主流的有三种算,e最早使用的这是Caff。动的基于快速傅立叶变化的运算第二是Facebook一直推,ograd的实现第三是基于Win,存在几十年了这个方法已经,况下能够取得非常好的性能只是近期发现它在特殊情。

  新的cuDNN5.1版本做了测试我们在Tesla P100对最,三种算法比较这,这三种算法为什么选,这三种算法供大家选择因为cuDNN实现了。下大家的性能还是有很大差距的大家可以看到在不同的网络配置,远超过矩阵运算和快速浮列变化的运算性能目前在小的卷积核上Winograd远,较快一定要了解卷积操作如果你想网络训练得比。

  体框架的测试在深度学习整,80、X Pascal另外还有P40和P100最新的测试主要是针对四款GPU包括GTX 9。才提到的那五款软件测试的软件还是刚。试他们的Caffe-MPI近期我们和浪潮合作也在测。开发的NVCaffe做的并行版本Caffe-MPI是基于英伟达。小规模集群上的测试我们同时做了一些。的GPU集群这是四个节点,块P40的卡一共有16,的56个Gb的网络它们的网络连接用,境用的是基于PCle的P40大家留意的是我们这个测试环,的显卡那性能应该会更好如果用的是NVlink。

  AlexNet上跑的结果这张图是Cifar10在,ibatch 增加的时候我们测试了不同的 Min,运行时间显示的是,越高就代表越慢所以batch。NTK的性能的确是最好的在这组测试里面我们发现C,投入了相当多的精力微软这个团队对性能,测试里是最好的它的性能在这组。硬件的时候一定要自己做好测试大家以后决定用什么平台用什么,用的是哪款卡看看你自己,取哪一个平台以决定你选,平台再考虑选哪一款卡或者你先决定用哪个,一个匹配问题二者之间有。

  的是在多卡环境下的性能今天主要想跟大家分享,已经做出了非常多的报告因为单卡过去一年我们,试相对比较少一点多卡的环境的测。卡状态下单机多,个加速比的问题大家关心的是一,四张GPU如果我要买,务器?这涉及到成本的问题买一台服务器还是买四台服。家通过我们的测试非常高兴地告诉大,单机多卡的表现都非常好目前主流的测试平台在,本上都是线性的它的加速比基,是PCIE总线而且我们用的,Vlink没有使用N,link的话如果使用NV,信性能会更好一点卡和卡之间的通。

  PU集群上的测试结果最后汇报一下我们在G。个节点的集群这个集群是4,面有4张卡每个节点里,16张卡最多有,能和用1张卡的性能到底有多少提升我们关心的同样是用16张卡的性。据代表的是1秒钟能够处理多少张图像在GoogleNet上面这里的数,NTK和MxNet性能差不多如果考虑单卡大家可以看到C,6张卡的性能在我们测试里是最好的但是扩展性上MxNet的性能在1,盘IO问题涉及到磁。

  的加速比是最好的CaffeMPI,可以带来15倍的提升加速比达到了16张卡,有CNTK和MxNet这么好但是为什么它的绝对性能并没,VCaffe开发的因为单卡性能基于N。e-MPI了解更多的话如果大家想对Caff,个关于Caffe-MPI的详细介绍下午四点钟浪潮的吴博士会给大家做一,Caffe这个平台扩展到多机的环境下面尤其使用Caffe的用户大家想想怎么把,I是非常好的选择Caffe-MP。

  们近期的计划最后谈一下我。比较新的深度学习软件包括进来首先我们要考虑把其他主流的,dlePaddle比如百度的Pad,yTorch还有近期的P。的芯片和软件做一些测试比较硬件方面我们考虑把AMD,司跟我们一起做一些Benchmark有可能我们也会联络一些做AI芯片的公,把16张卡做到更多我们希望扩展性方面,卡64张卡比如32张,ud里面的表现尤其在Clo。

  同大家合作我们欢迎,常开放的平台我们是一个非,都可以发邮件给我任何有兴趣的朋友。这么好的一个平台给大家最后我要感谢浪潮提供,提供了很多硬件的支持也感谢英伟达对我们,ow团队和MxNet团队对我们的支持感谢CNTK团队、Tensorfl,大家谢谢。搜狐返回,看更查多

地址:广东省广州市天河区88号    座机:400-123-4567    手机:13988999988
亚博手机pt娱乐 © 2002-2017 亚博国际pt客户端 版权所有    技术支持:    ICP备案编号:冀ICP备15030644号网站地图 | xml地图