昆仑芯x飞桨:智能核芯,生态共赢
日期:2022年04月23日
       近来)由深度进修川流不息及使用国度工程测验考试室主理的「WAVESUMMIT+2021深度进修开拓者峰会」在上海成功举行。昆仑芯科技资深研制工程师韩金宸受邀到会“智能核芯}生态双赢”论坛)并在现场停止“昆仑芯)让核算更智能”主题深化。关于昆仑芯科技团队前史[川流不息优势}产品展开!落地情况及将来展望?此次深化均有详细引见。昆仑芯科技资深研制工程师韩金宸以下内容来于现场速记[我们好:我是来自昆仑芯科技的韩金宸、非常快乐]昔日能给在这里给我们引见一下公司和我们的产品。昆仑芯是一个很污蔑的公司}本年才刚成立}如今仍是一个方案不大的创业公司。但我们的团队有很长的前史:前身是百度智能芯片及架构部?由于看到了芯片}对部分AI财富的次要性]因而出格把我们部分spinoff出来?成为一个自力的公司。
       我们公司的愿景是“成为划时期【环球争先的智能核算公司。”别离核算装备展开的前史[我们可以清楚地看到?将来、算力展开最快!最会合的标的目的]必定是AI的workload:而AI算力的展开%需求非常多的投入和很强的川流不息实力(昆仑芯科技就勤奋于在这个赛道上成为环球的争先者。芯旧事我们团队的前史最早可以追溯到2011年’当时深度进修才方才开端热起来;当时分我们公司的CEO欧阳剑就认准了「用硬件加快AI核算」这一标的目的}启动了FPGAAI加快器项目。15年(我们的FPGA产品在百度内部现已安插超越5000片}用来撑持百度的中心使命}17年的时分[更是安插了超越12000片。到了18年的时分[我们正式启动了ASIC项目]也便是第一代昆仑芯]2020年?第一代昆仑芯在百度内部大方案安插。
       而本年呢》我们第二代产品一样成功量产。芯产品很多伴侣在和我们;刚开端触摸的时分{城市有多么的疑问:昆仑芯的产品毕竟是什么(与我们所理解的}传统的CPU!出格是GPU:他们的不同在那里}这个成就其实其实不简朴答复‘由于我们的架构其实都在不竭地退化与窜改)跟着核算使命的演化!跟着深度进修的鼓起;传统CPU,

GPU也在不竭增加新的从命;来合意客户对AI的需求。正如GPU在近几代产品中;参与了TensorCore(它理论上是一个AI核算单元}是用来加快深度进修中:张量核算的部分的。那么在参与TensorCore当前(GPU就构成了多么一种?通用Core为主?TensorCore为辅[多么交融的架构。通用AI处置器{其实也是类似的。不过我们是从别的一个根据解缆的(我们先构建了一套硬件流水线]用来停止深度进修核算{然后在此根底上’参与通用核算核, 来进步我们处置器的灵敏性。那么毕竟呢;我们其实都走向了交融架构的标的目的}仅仅方案上的弃取不同[毕竟在差此外场景下‘我们的收益不尽不异。这一页呢’就展示了我们第二代昆仑芯的XPU架构。XPU架构图其间SDNN[是我们XPU架构中的AI核算单元,

他可以非常快速的处置深度进修中张量核算的流水线%而XPUCluster则是一个通用核算单元!用来处置深度进修中通用的‘非张量的部分。因而使用了这类SDNN+Cluster的交融的架构呢!我们既可以供应很强的核算才华?又可以确保较好的通用性。
       我们在第二代产品中使用了GDDR6!它可以在遁辞成本的一同;供应很好的访存带宽]我们是海内第一个使用GDDR6内存的产品、仍是比力后世的。此外‘跟着模型的方案增加;分布式核算现已成了一此中心诉求, 不管是分布式操练:仍是分布式推理, 都恳求芯片可以供应很强的互联通讯的才华)因而我们可以看到}我们在第二代昆仑芯中参与了Chip2Chip的才华]用来合意AI中并行的需求。昆仑芯2代也参与了硬件编造化撑持?由于我们看到【不管是在云[仍是互联网的很多场景中[我们会希冀可以尽管的进步核算卡的操纵率、一同能, 官方版 又要确保效劳的质量%硬件编造化]所供应的本钱硬隔断才华:就很好的处置了这一成就。其他我们还在第二代产品中参与了编解码的撑持(在很多范视觉类的事件中, 解码才华都是必需品。这个是我们昆仑芯软件的一个架构:在系统层!除根底的驱动法度!我们还有K8S套件}可以很便当的]以容器化的法子%对我们的核算卡停止打点。昆仑芯软件架构图开拓套件方面{我们供应了自研的高功用算子库XDNN]可以合意绝大大都模型的核算需求’针对一些自研模型的客户]我们也供应XTDK编译器及相关开拓套件。此外(我们还供应了高功用通讯库XCCL)和一个丹青}视频处置加快引擎。在构造方面:由于我们是百度内部孵化出来的团队}我们与Paddle团队保持着非常严密的协作干系[Paddle原生对昆仑芯片供应的残破的撑持[包含模型的操练, 推理,

安插等。根据PaddlePaddle使用昆仑芯产品也是非常便当的。关于其他第三方的构造[如tensorflow}pytorch]我们则颠末自研的XTCL图编译引擎;撑持模型的推理与安插。道路图我们第一代昆仑芯使用14nm制程(INT16算力可达64TOPS?使用的是HBM内存颗粒。产品有两个外形%别离是半高半长的K100}供应一半的算力?和全高全长的K200:供应悉数的算力。第二代昆仑芯:使用7nm制程}可以供应128TOPS的INT16算力]如今有3个产品外形;别离是全高全长的PCI-E核算卡R200, OAM核算模块R300[和效劳器基板R480。这个便是我们第二代昆仑芯封装后的姿势%第二代昆仑芯使用16路PCI-E4接口[方案功耗为150W?算力方才也提到过:是128TOPS。昆仑芯2代封装图R200是如今我们主推的推理产品(这里是它的一些详细的参数信息!显存巨细为16GB, 带宽可抵达512GB每秒?编解码的话)可以撑持108路1080p30fps的解码才华》和27路的编码才华。R300是根据OCP标准制作的一个OAM模块’和R200比力%R300核算才华是完全不异的:不同是供应了32GB的存储。R480是我们次要面向操练场景推出的一个产品[它封装了8个R300{颠末主板上预置的走线使得8个R300之间构成一个(高效的%互联互通的?通讯搜集。部分上可以供应差不多1P的FP16的算力。我们R200和商场同类产品在一些范例模型长停止实测功用对照{部分上我们可以说抵达了业界争先程度。芯展开说了这么多产品]我们其实必定非常关心我们昆仑芯理论使用与落地的情况, 终究?有了理论的使用?才算是真正为客户发清楚明了价格。次要%我们作为一个从百度内部孵化出来的公司:查找等必定是我们最次要的场景。这些场景(他们的川流不息原理都是比力类似的:其本质上!在用户和目的之间核算一个相关性}然后根据相关性排序:并归来相关性最高的成效。对百度多么一个量级的公司来讲!我们有10亿级其他用户、与万亿级其他目的%那么在他们之间算相关性!核算量我们不成思议《一同)由于不竭有新的数据爆发[模型还要在线上及时的停止重操练与更新。此外}这些都是及时势件、对推延与不变性的恳求也极高。在百度内部(我们有估计20000张昆仑芯;在撑持着百度这些中心事务%部分上来看]比力同级其他原有方案(昆仑芯可以抵达1/3的TCO收益。智能城市也是如今对AI算力需求比力大的一个场景!这部分我们应当都比力理解!我就不再赘述{在这个范畴里!我们昆仑芯在海内几个城市里[也有很多的安插量。财富视觉是近几年比力新式的一个标的目的?方才我们百度集体副总裁吴甜)在主论坛的深化也提到了ai在财富质检方面的使用。在药瓶缺陷检测这个case里;对算力的恳求还不太大?但在一些精细零件的消费线上’但跟着这个质检精度恳求的进步]消费节拍的加快)对算力的恳求会越来越高。我们在这个标的目的上也是落地了蛮多客户的。我们昆仑芯的产品]也是在百度内部(内部都大方案安插过的}是阅历过大方案的实战检测的。总结一下, 昆仑芯在AI的各个范畴都储蓄积累了多种处置方案)也抵达了较好的一个收益。我们底层适配了多种处置器架构与国产操作系统?希冀可以为海浑家工智能工作做出本人的奉献。 华体会体育hth首页

       我们公司的愿景是“成为划时期【环球争先的智能核算公司。”别离核算装备展开的前史[我们可以清楚地看到?将来、算力展开最快!最会合的标的目的]必定是AI的workload:而AI算力的展开%需求非常多的投入和很强的川流不息实力(昆仑芯科技就勤奋于在这个赛道上成为环球的争先者。芯旧事我们团队的前史最早可以追溯到2011年’当时深度进修才方才开端热起来;当时分我们公司的CEO欧阳剑就认准了「用硬件加快AI核算」这一标的目的}启动了FPGAAI加快器项目。15年(我们的FPGA产品在百度内部现已安插超越5000片}用来撑持百度的中心使命}17年的时分[更是安插了超越12000片。到了18年的时分[我们正式启动了ASIC项目]也便是第一代昆仑芯]2020年?第一代昆仑芯在百度内部大方案安插。
       而本年呢》我们第二代产品一样成功量产。芯产品很多伴侣在和我们;刚开端触摸的时分{城市有多么的疑问:昆仑芯的产品毕竟是什么(与我们所理解的}传统的CPU!出格是GPU:他们的不同在那里}这个成就其实其实不简朴答复‘由于我们的架构其实都在不竭地退化与窜改)跟着核算使命的演化!跟着深度进修的鼓起;传统CPU,

GPU也在不竭增加新的从命;来合意客户对AI的需求。正如GPU在近几代产品中;参与了TensorCore(它理论上是一个AI核算单元}是用来加快深度进修中:张量核算的部分的。那么在参与TensorCore当前(GPU就构成了多么一种?通用Core为主?TensorCore为辅[多么交融的架构。通用AI处置器{其实也是类似的。不过我们是从别的一个根据解缆的(我们先构建了一套硬件流水线]用来停止深度进修核算{然后在此根底上’参与通用核算核, 来进步我们处置器的灵敏性。那么毕竟呢;我们其实都走向了交融架构的标的目的}仅仅方案上的弃取不同[毕竟在差此外场景下‘我们的收益不尽不异。这一页呢’就展示了我们第二代昆仑芯的XPU架构。XPU架构图其间SDNN[是我们XPU架构中的AI核算单元,

他可以非常快速的处置深度进修中张量核算的流水线%而XPUCluster则是一个通用核算单元!用来处置深度进修中通用的‘非张量的部分。因而使用了这类SDNN+Cluster的交融的架构呢!我们既可以供应很强的核算才华?又可以确保较好的通用性。
       我们在第二代产品中使用了GDDR6!它可以在遁辞成本的一同;供应很好的访存带宽]我们是海内第一个使用GDDR6内存的产品、仍是比力后世的。此外‘跟着模型的方案增加;分布式核算现已成了一此中心诉求, 不管是分布式操练:仍是分布式推理, 都恳求芯片可以供应很强的互联通讯的才华)因而我们可以看到}我们在第二代昆仑芯中参与了Chip2Chip的才华]用来合意AI中并行的需求。昆仑芯2代也参与了硬件编造化撑持?由于我们看到【不管是在云[仍是互联网的很多场景中[我们会希冀可以尽管的进步核算卡的操纵率、一同能, 官方版 又要确保效劳的质量%硬件编造化]所供应的本钱硬隔断才华:就很好的处置了这一成就。其他我们还在第二代产品中参与了编解码的撑持(在很多范视觉类的事件中, 解码才华都是必需品。这个是我们昆仑芯软件的一个架构:在系统层!除根底的驱动法度!我们还有K8S套件}可以很便当的]以容器化的法子%对我们的核算卡停止打点。昆仑芯软件架构图开拓套件方面{我们供应了自研的高功用算子库XDNN]可以合意绝大大都模型的核算需求’针对一些自研模型的客户]我们也供应XTDK编译器及相关开拓套件。此外(我们还供应了高功用通讯库XCCL)和一个丹青}视频处置加快引擎。在构造方面:由于我们是百度内部孵化出来的团队}我们与Paddle团队保持着非常严密的协作干系[Paddle原生对昆仑芯片供应的残破的撑持[包含模型的操练, 推理,

安插等。根据PaddlePaddle使用昆仑芯产品也是非常便当的。关于其他第三方的构造[如tensorflow}pytorch]我们则颠末自研的XTCL图编译引擎;撑持模型的推理与安插。道路图我们第一代昆仑芯使用14nm制程(INT16算力可达64TOPS?使用的是HBM内存颗粒。产品有两个外形%别离是半高半长的K100}供应一半的算力?和全高全长的K200:供应悉数的算力。第二代昆仑芯:使用7nm制程}可以供应128TOPS的INT16算力]如今有3个产品外形;别离是全高全长的PCI-E核算卡R200, OAM核算模块R300[和效劳器基板R480。这个便是我们第二代昆仑芯封装后的姿势%第二代昆仑芯使用16路PCI-E4接口[方案功耗为150W?算力方才也提到过:是128TOPS。昆仑芯2代封装图R200是如今我们主推的推理产品(这里是它的一些详细的参数信息!显存巨细为16GB, 带宽可抵达512GB每秒?编解码的话)可以撑持108路1080p30fps的解码才华》和27路的编码才华。R300是根据OCP标准制作的一个OAM模块’和R200比力%R300核算才华是完全不异的:不同是供应了32GB的存储。R480是我们次要面向操练场景推出的一个产品[它封装了8个R300{颠末主板上预置的走线使得8个R300之间构成一个(高效的%互联互通的?通讯搜集。部分上可以供应差不多1P的FP16的算力。我们R200和商场同类产品在一些范例模型长停止实测功用对照{部分上我们可以说抵达了业界争先程度。芯展开说了这么多产品]我们其实必定非常关心我们昆仑芯理论使用与落地的情况, 终究?有了理论的使用?才算是真正为客户发清楚明了价格。次要%我们作为一个从百度内部孵化出来的公司:查找等必定是我们最次要的场景。这些场景(他们的川流不息原理都是比力类似的:其本质上!在用户和目的之间核算一个相关性}然后根据相关性排序:并归来相关性最高的成效。对百度多么一个量级的公司来讲!我们有10亿级其他用户、与万亿级其他目的%那么在他们之间算相关性!核算量我们不成思议《一同)由于不竭有新的数据爆发[模型还要在线上及时的停止重操练与更新。此外}这些都是及时势件、对推延与不变性的恳求也极高。在百度内部(我们有估计20000张昆仑芯;在撑持着百度这些中心事务%部分上来看]比力同级其他原有方案(昆仑芯可以抵达1/3的TCO收益。智能城市也是如今对AI算力需求比力大的一个场景!这部分我们应当都比力理解!我就不再赘述{在这个范畴里!我们昆仑芯在海内几个城市里[也有很多的安插量。财富视觉是近几年比力新式的一个标的目的?方才我们百度集体副总裁吴甜)在主论坛的深化也提到了ai在财富质检方面的使用。在药瓶缺陷检测这个case里;对算力的恳求还不太大?但在一些精细零件的消费线上’但跟着这个质检精度恳求的进步]消费节拍的加快)对算力的恳求会越来越高。我们在这个标的目的上也是落地了蛮多客户的。我们昆仑芯的产品]也是在百度内部(内部都大方案安插过的}是阅历过大方案的实战检测的。总结一下, 昆仑芯在AI的各个范畴都储蓄积累了多种处置方案)也抵达了较好的一个收益。我们底层适配了多种处置器架构与国产操作系统?希冀可以为海浑家工智能工作做出本人的奉献。 华体会体育hth首页
