Radhuni

科大讯飞基于英特尔® 至强融核TM 处理器优化深度学习平台

2018/1/13   教育

“最初,我们引入英特尔® 至强融核TM 处理器,是出于加强运算能力,给深度学习应用多一个底层平台可选方案的考虑。但随着双方合 作的深入,我们发现英特尔在AI、深度学习上的技术优势和能力可以给予我们更多帮助。英特尔不仅是一个硬件产品提供商,还是人工智能领域领先的全栈解决方案提供商,更是我们AI战略上可信、可依赖的全天候、全方位合作 伙伴,能帮助我们更高效地探索AI的未来创新之路。”

科大讯飞:王智国(AI研究院常务副院长)

成立于1999年的科大讯飞股份有限公司(以下简称“科大讯飞*”)是中国,乃至全球范围 内智能语音和人工智能(Artificial Intelligence,AI)产业的领跑者,在语音识别、自然语 言处理等多项技术上处于国际领先地位。凭借自主知识产权的智能语音技术,它已占据 中文语音技术市场70%以上的份额。

面向未来,科大讯飞正积极投身于拓展整个AI领域。以讯飞开放平台为基础,以讯飞人工智能技术为核心技术力量,引入各个行业的数据和专家知识,来构建更完善的AI产业生 态,探索AI在认知领域的新篇章。

科大讯飞深刻理解深度学习对于实现上述战略目标的重要意义,还看到深度学习的发展 不仅需要顶层应用的精进,也离不开底层平台在计算、数据处理和算法优化上的支持。这 就意味着它一方面需要从长远共赢的角度,寻找一家在上述层面拥有更强综合实力的合 作伙伴;另一方面则需要从眼前的需求出发,为自身的深度学习应用寻找更多样化且优化 效果更为出色的硬件平台。

基于这两点考虑,科大讯飞开始与横跨通用、专用和可定制硬件平台,兼顾硬件支撑与软 件优化,并覆盖终端和云端的人工智能全栈解决方案提供商英特尔合作,引入英特尔® 至强融核TM 处理器作为深度学习平台的“芯”选择。同时,它还通过与英特尔签署战略谅 解备忘录,加速推进自身相关代码和模型从GPU平台向英特尔® 至强融核TM 处理器平台 的迁移和优化。

截止目前,双方上述协作已取得了丰硕的成果:经测试,科大讯飞的深度学习应用代码 在用于人工智能的新一代英特尔® 至强融核TM 处理器(代号为Knights Mill)上的运行性 能,已能媲美现有的深度学习平台,这标志着双方在携手探索AI未来发展道路和前进方 向上,已迈出了坚实的一步。

面临挑战

科大讯飞的深度学习方案正寻求更为多样化的计算平台的支撑:除了传统的深度学习计算 平台外,科大讯飞也希望构建更多的、基于不同技术方案的深度学习计算平台,增加选择上的多样性。

科大讯飞的AI创新之路,需要能力更为全面的合作伙伴来支持:已经在语音识别、智能语音等领域获得卓越成就的科大讯飞,正以庞 大的数据为基础,构建强大的AI平台,探索未来AI之路。因此科大 讯飞希望找到一个在AI领域有着全面布局、有长远规划并有着软硬件综合优势的合作伙伴相互协作、共同前行。

解决方案

与英特尔达成战略合作:基于协力推进AI的共同愿景,英特尔与科 大讯飞于2016年签署了战略谅解备忘录(MOU)。双方一方面计划 于三年内持续推进在代码级优化上的合作,并以此为基础进行AI前 沿技术的研究;另一方面,双方也计划在市场拓展方面开展合作,切 实推动技术成果的落地进程。

将深度训练应用迁移到基于英特尔® 架构的平台上,并实现性能优化:英特尔从科大讯飞的实际情况入手,提供了基于英特尔® 至强融核TM 处理器的深度学习平台,并在代码级优化合作的基础上,帮助其深度学习框架和应用代码实现从传统平台到英特尔® 架构平台的迁 移,及其运行性能上的优化。

发起“访问学生”计划:为了令英特尔® 至强融核TM 处理器从算法、代 码的层面更有效地支撑科大讯飞深度学习框架,双方携手共同发 起“访问学生”计划,以实习生为契机,通过派驻现场工作和不间断 的技术研讨,将双方的优化工作有效结合在一起,从系统代码层级 为深度学习框架提供更高的算法和数据处理效能。

成果

为双方在深度学习领域的持续合作奠定基础:科大讯飞与英特尔 在战略合作框架下推进的代码优化协作,以及对现有深度学习应 用的迁移和优化,为双方合作的持续和深化提供了良好的开端, 双方的协作将驱动以智能认知为目的的深度学习不断得到发展和 完善。

为更多科大讯飞的机器学习应用、算法和框架转向英特尔® 架构平 台铺平了道路:目前双方在深度学习应用代码迁移和优化上的工作 只是初见成效,但讯飞多数相关或类似应用都是基于其专有的框架 和技术,因此初期成果极具参考和借鉴价值,可以为后续更多应用 的迁移及优化铺平道路。

为英特尔® 架构的AI软硬件产品的优化和改进提供了重要助力:在 上述合作过程中,英特尔对科大讯飞应用需求更为深入的了解,还 有对其宝贵技术经验和见解的充分汲取,也对英特尔相关软硬件产品,包括用于人工智能的新一代英特尔® 至强融核TM 处理器的优化, 及各类AI软件工具和库的改进,起到了积极的推动作用。

认知,是我们感知世界的能力。人类通过语言交流去获取信息、进 行正确的判断、积累知识。但认知此前一直都是计算机能力的短板, 因此也是AI领域的焦点之一。已在语音识别、语音软件等技术上耕 耘十八年的科大讯飞,正计划以语音和语言相关的创新成果为入 口,发起一场计算机的认知革命。利用深度学习的方法,让机器通 过智能认知的方式去感知世界,这无疑是AI研究的重要突破点。

影响深度学习的因素有三个:算法研究、计算能力和数据获取。随 着互联网的发展,我们所能获取和利用的数据呈爆炸式增长。预 计到2020年,全球数据量将超过4万亿GB,这将满足深度学习的 数据获取需求。在算法研究上,目前最常用的深度神经网络(Deep Neural Networks , DNN)算法和循环神经网络(Recurrent Neural Network,RNN)算法已经能较好地模拟人脑神经元多层深度传递 的过程,解决智能语音中的复杂问题。在计算能力方面,人类大脑 约有1000亿神经元,每个神经元有大约5000个神经突触,要使机 器接近人类的思考能力,则意味着要模拟出如此多的神经元和神经 突触,这在计算能力上是个巨大的挑战。

为了提升深度学习的效能,科大讯飞的“讯飞超脑计划”打算模拟人 脑神经元,以期让该公司的智能语音设备拥有初步的人类思考能 力,这意味着科大讯飞会面对处理数千倍训练数据和模型参数的 巨大挑战。要实现这一深度模拟,需要更大规模的超算集群、更优 的深度学习算法、以及深度定制的人工神经网络专属芯片系统。

科大讯飞将目光聚焦在同为人工智能业界巨擘的英特尔身上。科大 讯飞AI研究院常务副院长王智国这样理解双方的合作:“与英特尔 携手是为了共同探索AI未来的发展道路和前进方向,而不仅仅是 寻找一家传统意义上的硬件合作伙伴。”

战略合作:从“寻求另一种解决方案”开始

让计算机能够“听懂”人类的语音,是智能识别的关键任务。自动语 音识别一直是AI最重要的研究方向之一。经过数十年的发展,最新 的基于DNN、RNN、RNN-CTC算法的语音识别系统已经拥有了良 好的语音识别能力。作为该行业的技术领头羊,科大讯飞不懈努力, 研发出了FSMN、DFCNN等一系列卓越的语音识别框架,引领着自 动语音识别技术的前进方向。

语音识别想要获得更好的识别效果,就需要对这些框架进行大量的 数据训练,这将带来海量的计算工作量。在一项数据训练中,每一万 小时的语音数据约产生6000PFlop(千万亿次)的计算量,这个计 算量即便是用超级计算机“天河一号”*来执行,也需要近1.5小时的 工作时长。

科大讯飞希望寻找到可以帮助他们解决运算能力问题的合作伙伴, 其深度学习基础架构,是将计算资源和并行文件系统通过高速网络 连接,并在之上开发语音识别核心的计算引擎,再将之用于各种模 型训练和计算。可以看出,处理器的并行计算能力以及高速网络传 输能力会直接影响这一架构的工作效率。

此前,科大讯飞主要使用传统的GPU方案,但英特尔® 至强融核TM 处理器在这类应用上的出色潜能,也让科大讯飞的工程师们跃跃欲 试,希望尝试另一种计算能力在其深度学习系统上的表现。于是, “寻求另一种解决方案”的想法,就成为了科大讯飞和英特尔达成战 略合作的启始点。

英特尔® 至强融核TM 处理器的表现并没有让科大讯飞的专家失 望:在性能方面,代号为Knights Landing的至强融核TM 处理器集 成多达72个高效内核,其源自英特尔® 高级矢量扩展指令集512 (英特尔® AVX-512)技术的超宽矢量宽度,非常适用于高负荷并 行计算的场景;在扩展性方面,这款处理器提供了在高性能工作 负载下的高可扩展性和可靠性,适用于深度学习中的复杂神经网 络快速训练。通过与英特尔® Omni-Path架构(英特尔® OPA)高 速互联架构配合,该处理器还可大幅降低复杂的神经网络的训练 时间。

双方在新平台合作上取得的初步成功,让彼此都信心倍增。科大讯 飞相信,自身在语音识别上积累的大量数据与算法,加上英特尔在 计算平台和软件调优方面的技术力量,完美地构成了AI研究的三元 素:数据、计算和算法。随着双方信任和合作的升级,2016年底, 英特尔与科大讯飞在珠海共同签订了AI技术的战略谅解备忘录,计 划在未来三年内共同推进代码级别的合作优化、AI最前沿技术的研 究,以及共同进行市场拓展。

而今,科大讯飞和英特尔的合作基础,正在转向用于人工智能的新 一代英特尔® 至强融核TM 处理器(代号为Knights Mill)。与前一 代产品不同,Knights Mill是一款完全根据AI应用需求设计和打 造的处理器,除了制程工艺升级到10纳米以外,它还具备“可变精 度”(variable precision)这种为机器学习充分优化的技术特性。 由于深度学习的工作一般都运行在低精度模式下,较低的精度模 式可以大幅增加处理器的吞吐量,因此Knights Mill将比上一代产品更适于深度学习应用。同时,它还可以作为深度学习应用平台 的主处理器,而无需其他处理器配合它的工作。在内存管理上,它 也更为灵活,支持的内存容量更高,这也意味着它将更为彻底地 打破在传统方案上扩展机器学习模型和训练数据时无法突破的显 存容量限制。

应用迁移:依靠专才培养计划加速

英特尔与科大讯飞都意识到,想要达成更深层次的合作,实现更好 的应用迁移和优化效果,唯有将合作深入到代码这个层面,才能从 根本上进行更高程度的优化。在双方签署的合作协议中,第一步就 是提出要推进代码级别的协作优化。

为了加速这项工作,在双方交流和沟通日渐深入之际,一个新奇的 “访问学生”计划应运而生。

这一计划的落实,从科大讯飞开始。首先,它要经过层层筛选,招聘 优秀的AI方向研究生作为实习生。实习生在科大讯飞经过一段实习, 在充分熟悉科大讯飞主要的语音识别计算引擎和计算框架后,再到 英特尔数据中心事业部实验室,以实习生身份进行独立工作。实习 生执行的所有关于英特尔和科大讯飞合作的程序代码和数据,都在 独立的服务器上进行。

由此,双方展开了一种独特而又高效的工作模式:双方的技术专家 通过定期的技术会议,针对深度学习应用所需的场景、需求以及技 术焦点进行讨论,解决所面临的问题,确定优化的方向以及下一步 的工作,然后技术讨论的成果由实习生在实验室予以验证。整个计 划分成了三个阶段:

第一阶段:由实习生将科大讯飞计算引擎的部分程序代码和数据 拿到英特尔实验室,针对英特尔® 至强融核TM 处理器(Knights Landing)的特性,例如高效内核和超宽的矢量宽度,进行优化, 使基于这一处理器平台的深度学习系统样本训练工作效率达到科 大讯飞的预期

第二阶段:将英特尔实验室中获得的优化成果,包括代码和性能参 数,由实习生带回科大讯飞数据中心机房并建立相应的测试环境, 这一包含了16颗英特尔® 至强融核TM 处理器(Knights Landing)的 测试环境,可以帮助科大讯飞将英特尔的成果和经验在科大讯飞的 模块和应用中进行移植、优化和验证;

第三阶段:继续由实习生将科大讯飞新的数据拿到英特尔实验室 进行优化,针对用于人工智能的新一代英特尔® 至强融核TM 处理器(Knights Mill)的特性,例如作为深度学习应用的主处理器的工 作模式等,进行进一步优化工作。

通过三个阶段的工作,英特尔与科大讯飞都收获了满意的成果。 在第二阶段,在基于KnightsLanding的测试环境下,样本训练 效率已经达到同级别传统训练平台的90%,在行业内引起广泛关 注。而在第三阶段,在针对Knights Mill进行调优后,样本训练效 率更是超出了同级别传统训练平台的水准。而英特尔在这一过程 中,也更为全面、深入地了解到了像科大讯飞这样的,处于业界领 先的AI企业在相关应用优化方面的核心需求、宝贵经验和见解, 并将之反馈到Knights Mill的性能优化和改良中。同时,英特尔旗 下许多与深度学习的软件工具和库,例如Paraelle Studio, MKL- DNN,也借此机会得到了大幅改进,让双方的合作实现了双赢的 效果。

未来:一起站在AI的风口

上述一系列的深层次合作,使英特尔与科大讯飞都为更清晰地了解 到对方在AI上的能力与愿景,并意识到调整思维,将传统的硬件合 作变为商业和战略两个层面上的深度合作,是双方面向未来、引领 AI大潮的重要契机。以此为基础,科大讯飞已经开始对英特尔提供 的丰富的产品和技术进行更为广泛地测试和采用。在它为各行各业 用户和开发者们提供的“讯飞开放平台”中,就已经或即将导入全新英特尔® 至强® 可扩展处理器、英特尔® 傲腾固态盘以及相比处理 器和GPU更易于定制、对应用的支持更为灵活的英特尔FPGA。

着眼未来,英特尔与科大讯飞还将继续以双方的战略谅解备忘录为 指导框架,在继续加深技术层面合作的同时,在市场研究、市场策 略制定等方面携手共进。

经验:

深度学习应用中对并行计算有着大量的需求,代号为 Knights Landing的英特尔® 至强融核TM 处理器,以及代号 为Knights Mill、用于人工智能的新一代英特尔® 至强融核TM 处理器凭借多内核,高可扩展性及超宽的矢量宽度,在并行 计算上有着得天独厚的优势,能够帮助深度学习应用获得更 高效的样本训练效能。

英特尔与科大讯飞之间在代码层级的深度合作,不仅可以推 动科大讯飞训练平台的优化,提升其工作效率,其反馈的需求 和经验,也促进了用于人工智能的新一代英特尔® 至强融核TM 处理器(Knights Mill),以及其他英特尔深度学习软件工具 和库的优化,双方在合作中均获益良多。