英特尔敲定Nervana人工智能路线图 首次披露未来发展框架
11月17日在旧金山举办的“人工智能日”活动中,英特尔首次披露未来发展框架,高调推出了其在快速增长的人工智能芯片市场上的公司战略和产品生态系统。
英特尔今年八月宣布将收购人工智能老将Naveen Rao创立的初创公司Nervana Systems,来扩展其在快速市场中的人工智能(AI)训练深度神经网络的能力。
英特尔是否有魄力通过收购Nervana的技术为他们的系列产品增设一个新的架构?他们是否会一如既往地坚持以CPU为中心的战略?这些都是是我们前往现场时渴望获悉答案的问题。
让我们欣慰的是,英特尔决定将Nervana作为可扩展的一部分加入系列产品中,并以大量投资为公司建立起人工智能系列产品的生态系统。
Nervana Systems是一家什么样的公司?
今年八月,英特尔宣布收购Nervana Systems,以扩展其在人工智能(AI),尤其是训练深度神经网络的能力。
训练神经网络是一个热门的市场,公司通常使用GPU来教机器如何处理文本、图像、声音和其他数据类型。Nervana正在发展适合这项任务的加速器和软件,而不是使用更通用的GPU来完成这项繁重的事情。通过这次收购,英特尔将得到一个用于深度学习的具体产品和IP,它们可被用在单独加速器上,也能与英特尔未来的技术融合,生产出更具竞争力、创造性的芯片产品。
Nervana Systems 是一家总部位于加州帕洛阿尔托和圣地亚哥,由高通人工智能老将Naveen Rao创立的初创公司。该公司已经筹集了超过2400万美元风险投资来为人工智能创造一个硬件和软件平台。首先,它开发了一个称为Neon的深度神经网络优化软件库,该公司声称在NVIDIA硬件上的运行速度是流行的Caffe和Torch开源框架的两倍。使用NVIDIA GPU在自主的人工智能服务云上提供这个平台,他们已经有了登陆客户,如Blue River Technology,该公司建立了允许农民评估他们每株庄稼的农业机器人。
但他们真正的武器可能是Nervana引擎,一个运用台积电(TSMC)28纳米工艺的架构加速器,并预计在2017年第一季度测试。Nervana的芯片只加速半精度的运行,而不是支持全精度和双精度浮点加速所需的各种科学代码。虽然这缩小了他们的目标市场与通用GPU例如NVIDIA Tesla相比,但它可以允许他们在他们的芯片上为人工智能增加更多的半浮点算术单元。
该公司相信这将使他们能够提供比NVIDIA Tesla K80加速器高10倍的性能。并意味着它可能比新的Pascal芯片快大约5倍,快到足以窃取一些有价值的客户。如果他们能按时供货,并说服客户使用公司专有的Neon堆栈。最后一点可能成为Nervana的问题,除非他们也可以无变化地提供支持运行现有的代码。
为什么英特尔需要另外一个架构?
在机器学习上,GPU 的确可以出色完成任务,因为它具有数千个浮点单元,可以并行地用于矩阵(张量)操作,来构成大部分训练深层神经网络(DNN)的处理。但大多数GPU还有很多其他功能,例如适用于处理图形图像和生成图形输出。此外,GPU提供高性能计算(HPC)应用程序使用的更高精度浮点,如金融分析,仿真和建模,而不需要深度学习算法。所有这些功能都会占用宝贵的芯片空间和能量。因此,理论上来说,Nervana 的方法能够实现更高的性能,或者降低这些计算密集型的工作负荷的成本(不过,到目前为止,这家公司还没有提供对他们芯片的任何性能预测)。
英特尔是否仍需要大的GPU?
说到处理器,除了大GPU,对于每一种架构风格,英特尔都有一个或更多的处理器。他们有用集成(小)GPU的台式机处理器,用于服务器的Xeon CPU,用于HPC和超级计算机的多核Xeno Phi(“Knights Landing”)以及用于特定功能加速器(包括深度学习推理引机)的Altera FPGA。但我经常被问到英特尔是否需要一个重型GPU。通过这次收购,我认为现在的答案是“不”。Nervana 能覆盖 Xeon Phi、Altera FPGA 与现在人工智能的 Nervana Engine 之间的 GPU 加速空间。而且,Intel 最近推动的自动驾驶系统可能会从一个像 Nervana 这样的低功耗深度神经网络引擎中获益。
这将是主导市场的半导体公司首次构建某一特定工作负荷的架构,这是该公司察觉到人工智能市场快速扩张后采取行动的表现,也可能是未来行业发展趋势的预兆。该公司还强调了人工智能软件和生态系统的方案,包括一个令人印象深刻的人工智能培育计划,使企业市场和2015年收购的Saffron软件更加有效。
英特尔披露未来规划
本次活动不仅为Nervana的闪亮登场提供了平台,更为英特尔建立系列产品和路线图起到战略性作用。除了应用IP从Nervana到x86芯片系列产品之外,英特尔始终致力于Nervana引擎和深度神经网络软件在2017年芯片量产中的应用。在一个并不典型的踌躇满志的方案里,英特尔还为未来设定了目标,那就是在2020年问世的GPU中应用Nervana,使DNN处理速度比今天最好的GPU提升100倍。
英特尔披露了关于Nervana引擎(现在代号为“湖峰”)的一些细节,这些内容都指向该技术有望被利用的潜在优势。首先,每个芯片上有一个处罚器,使CPU节点运算能力大大增强,其缩放比在CIe Gen 3基础上以20的倍数增长,这意味着运算速度将达到20GB/s。其次,该Nervana设计团队想出了一种新的方法降低公式精密度。不再使用 “半浮”(16位浮点运算)来训练神经网络运算速度,转而使用一种他们称之为“拐点”的模式,该模式可以更低的消耗给予每个完整执行单元相同的精度与效率。因此,一个普通的指数可以适用于数组或整数运算,从而实现较低精度浮点的有效计算能够达到正常情况下整数值。最后,每个节点都有其自己的存储接口HBM2,支持闪存32GB。这是代价高昂的存储部分,所以该部分售价将不会亲民。
图为被称作“湖蜂”的Nervana引擎芯片,也是未来加速器的高端部分,具有3D结构,昂贵的32GB HBM2存储。
除了Nervana引擎, Nervana平台也将成为英特尔系列中人工智能的主打品牌,就像从Xeon对Phi到原子对夸克的转变。例如,英特尔表示将建立一个应用Nervana的Xeon CPU多芯片集成块,就像曾经对Altera FPGAs做的那样。这是一个相对容易的设计尝试,强制集成CPU也促成了商业意识的觉醒。然而,这样1对1的特质限制了解决方案的可扩展性,因此我们希望英特尔继续提供独立的加速器,这样,他们的合作伙伴可以构造多点连接模块的主板。
但是,人工智能不等于Nervana引擎。例如,有些机器学习的问题,需要大量的内存,这就是Xeon Phi被定位为首选方案的原因。英特尔重申将在明年的Knights Mill产品中为这些应用在Xeon Phi里添加降低计算精密度的改进。当然,Xeon, Core,Quark处理器和FPGAs将优化Nervana IP和软件,并用于神经网的实用推理训练。
英特尔将转战人工智能?
在这次声明之前,英特尔的人工智能战略始终是犹抱琵琶半遮面,让人无法看清,甚至于产品定位都发生冲突。现在,综合公司CEO、各层级高管和合作商的发言,我们终于可以得出清晰的认识,英特尔现在已经有了明确的公司战略、硬件路线图、软件系列产品以及进军市场的计划,这些都会使他们成为市场有力的竞争者。
当然,这一切得以实现的前提是英特尔能够完美地执行这些计划;毕竟,这些设想的美好程度现在还停留在幻灯片的做工上。我们还没有看到任何真正的湖蜂或Knights Mill产品, GPU的说法也很模糊,进入市场的伙伴关系和主动培育计划都还只是计划。未来任重而道远。
还有,切记一点,如果一个小的触点,比如Nervana,就可以成就人工智能加速器,其他如Wave计算和GraphCore同样也可以,更不用说像NVIDIA这样的市场领导者。在这方面,英特尔多年以来都是牟足了劲地追赶NVIDIA的普适系统,而NVIDIA可不是止步不前或安于现状的对手。
不管怎么样,这一切恰恰意味着,英特尔现在已经与人工智能同呼吸共命运,而且在技术和领导力方面有着令人印象非常深刻的表现,为了不留遗憾,英特尔会坚定不移地在未来人工智能世界占领一席之地。
欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967