上周,NVIDIA在加州举行了2017年的GPU技术大会(GTC2017)。在大会上,NVIDIACEO黄仁勋发布了全新力作——NVIDIA Tesla V100。 根据NVIDIA官方介绍,Tesla V100采用了全新架构Volta,不仅会有更强的性能,还增加了TensorCore用以专门针对深度学习。在发布会后,NVIDIA的股价也随之走高。 那么NVIDIA能凭借Tesla V100强悍的性能在深度学习领域力压群雄吗? Tesla V100的优点和存在的不足 根据NVIDIA官方介绍,Tesla V100采用台积电12nm FinFET制造工艺,供集成了210亿个晶体管,芯片面积达815平方毫米。NVIDIA为了针对深度学习,专门进行了优化,经过优化的设计比前代Pascal架构能效高50%。 新的Tensor Core是专门为深度学习设计的,为浮点运算速度带来了12倍的提升——Tesla V100增加了Tensor Core,Tensor单元本质上是把运算器做得更密集,以这种方式获取更强性能。 此外,Tesla V100还拥有更大的带宽和更低的延迟,半精度浮点乘混合单精度浮点加法也非常适合深度学习训练。 简而言之,就是运算器堆的更多,矩阵乘法运算能力更强,性能得道大幅提升,Tesla V100双精浮点运算性能高达7.5TFlops,相比之下,Intel用于深度学习的KnightsMill双精浮点性能为3TFlops。 由于人工智能的迅速发展,诸多企业对与高性能深度学习处理器的需求也与日俱增: 微软的ResNet的深度学习项目需要每秒7百亿亿次浮点运算的处理能力;百度2016年打造的DeepSpeech2AI需要每秒20百亿亿次浮点运算的处理能力;Google2017年打造的NMT则需要每秒105百亿亿次浮点运算的处理能力;...... 因此,NVIDIA的Tesla V100作为数据中心GPU是非常具有潜力的,不仅可以满足训练的需求,还可以放在后台提供相关服务。 虽然Tesla V100在性能上无与伦比,而且在一些领域颇具市场潜力,但还是存在不少缺点的。 比如芯片面积过大——高达815平方毫米,而过大的芯片面积,加上NVIDIA在该款芯片上巨额的研发投入(黄仁勋称NVIDIA花了30亿美元打造这款芯片),直接导致Tesla V100的价格异常昂贵,售价高达14.9万美元。如此高的售价会让很多用户望而却步。 就产品定位来说,Tesla V100性能超强,拿来类比的话是一台超级计算机,而在很多场景下,其实用不到性能这么强,价格如此昂贵的产品。 对于普罗大众和大多数应用场景来说,性能够用、功耗低且廉价的产品才是最好的选择,就像普通消费者需要的是智能手机和PC,而不是超级计算机。 比如将来智能手机里如果要集成针对深度学习的模块,NVIDIA的产品显然是不合适的。在这种场景下,开发专门针对嵌入式平台的处理器IP更加符合市场需求。 NVIDIA的Tesla V100的市场定位类似于核弹,但真正需要核弹的场景其实相对不多,而且客户也只能是Google、微软、百度这些国际巨头。 正如核弹仅被少数国家掌握,而且在国际冲突和局部战争中鲜有使用,AK47和RPG是才是被最广泛使用的武器类似,NVIDIA的这种市场定位,会使其失去非常广阔的嵌入式设备市场。 最后就是功耗的问题,NVIDIA的终端低功耗做得不够好。必须说明的是,台积电的12nm工艺其实是16nm工艺的改良版本,是针对三星玩14nm命名游戏的反击。因此,台积电的12nm工艺到底对功耗控制有多大实际效果还是等产品上市后才能见分晓了。 深度学习处理器将进入战国时代 自AlphaGo与韩国棋手李世石大战之后,深度学习、人工智能这些概念立马火了,不仅成为资本的宠儿,各色各样的深度学习处理器纷纷涌现出来,各家IC设计公司推出了各自CPU、GPU、FPGA、DSP、ASIC等方案。 就CPU来说,最典型的就是Intel的Xeon Phi。Intel的众核芯片双精浮点性能为3 TFlops,性能功耗比为12 GFlops/W。 虽然Intel宣称,“四片Knights Landing Xeon Phi芯片比四片GPU要快2.3 倍”、“使用Intel优化版的Caffe深度学习框架时,Xeon Phi芯片要比标准Caffe 实现快30倍”,但目前来说,还是NVIDIA的GPU更胜一筹。 除了Intel之外,中国自主设计的申威26010也是一个潜在的选手,在人工智能领域也有应用的潜力,百度还为此与申威有过接触。 在DSP上,国内外还有不少单位或公司也选择用传统SIMD/DSP架构适配神经网络,比如中星微的星光智能一号、CEVA公司的XM4处理器、Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器等。 这些处理器本质上都是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数。这种做法的优势在于可以充分利用现有的成熟技术,但缺点也很明显,就是在应用领域上有一定局限性。大多用于卷积神经网(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络则无能为力。 换言之,就是这种DSP主要用于机器视觉领域,可能难以应用到语音识别、文本处理和自然语言理解等领域。虽然采用DSP作为人工智能硬件存在一定不足。不过,采用现有比较成熟技术应用于人工智能细分市场的做法在商业上还是有一定潜力的。 在FPGA