昆仑芯x飞桨:智能核芯,生态共赢

日期:2022年04月23日
       近来)由深度进修川流不息及使用国度工程测验考试室主理「WAVESUMMIT+2021深度进修开拓者峰会」在上海成功举行。昆仑芯科技资深研制工程师韩金宸受邀到会“智能核芯}生态双赢”论坛)并在现场停止“昆仑芯)让核算更智能”主题深化。关于昆仑芯科技团队前史[川流不息优势}产品展开!落地情况及将来展望?此次深化均有详细引见。昆仑芯科技资深研制工程师韩金宸以下内容来于现场速记[我们好:我是来自昆仑芯科技韩金宸、非常快乐]昔日能给在这里给我们引见一下公司和我们产品。昆仑芯是一个很污蔑公司}本年才刚成立}如今仍是一个方案不大创业公司。但我们团队有很长前史:前身是百度智能芯片及架构部?由于看到了芯片}对部分AI财富次要性]因而出格把我们部分spinoff出来?成为一个自力公司。
       我们公司愿景是“成为划时期【环球争先智能核算公司。”别离核算装备展开前史[我们可以清楚地看到?将来、算力展开最快!最会合]必定是AIworkload:而AI算力展开%需求非常多投入和很强川流不息实力(昆仑芯科技就勤奋于在这个赛道上成为环球争先者。芯旧事我们团队前史最早可以追溯到2011年’当时深度进修才方才开端热起来;当时分我们公司CEO欧阳剑就认准了「用硬件加快AI核算」这一标}启动了FPGAAI加快器项目。15年(我们FPGA产品在百度内部现已安插超越5000片}用来撑持百度中心使命}17年时分[更是安插了超越12000片。到了18年时分[我们正式启动了ASIC项目]也便是第一代昆仑芯]2020年?第一代昆仑芯在百度内部大方案安插。
       而本年呢》我们第二代产品一样成功量产。芯产品很多伴侣在和我们;刚开端触摸时分{城市有多么疑问:昆仑芯产品毕竟是什么(与我们所理解}传统CPU!出格是GPU:他们不同在那里}这个成就其实其实不简朴答复‘由于我们架构其实都在不竭地退化与窜改)跟着核算使命演化!跟着深度进修鼓起;传统CPU,

GPU也在不竭增加新从命;来合意客户对AI需求。正如GPU在近几代产品中;参与了TensorCore(它理论上是一个AI核算单元}是用来加快深度进修中:张量核算部分。那么在参与TensorCore当前(GPU就构成了多么一种?通用Core为主?TensorCore为辅[多么交融架构。通用AI处置器{其实也是类似。不过我们是从别一个根据解缆(我们先构建了一套硬件流水线]用来停止深度进修核算{然后在此根底上’参与通用核算核, 来进步我们处置器灵敏性。那么毕竟呢;我们其实都走向了交融架构}仅仅方案上弃取不同[毕竟在差此外场景下‘我们收益不尽不异。这一页呢’就展示了我们第二代昆仑芯XPU架构。XPU架构图其间SDNN[是我们XPU架构中AI核算单元,

他可以非常快速处置深度进修中张量核算流水线%而XPUCluster则是一个通用核算单元!用来处置深度进修中通用‘非张量部分。因而使用了这类SDNN+Cluster交融架构呢!我们既可以供应很强核算才华?又可以确保较好通用性。
       我们在第二代产品中使用了GDDR6!它可以在遁辞成本一同;供应很好访存带宽]我们是海内第一个使用GDDR6内存产品、仍是比力后世。此外‘跟着模型方案增加;分布式核算现已成了一此中心诉求, 不管是分布式操练:仍是分布式推理, 都恳求芯片可以供应很强互联通讯才华)因而我们可以看到}我们在第二代昆仑芯中参与了Chip2Chip才华]用来合意AI中并行需求。昆仑芯2代也参与了硬件编造化撑持?由于我们看到【不管是在云[仍是互联网很多场景中[我们会希冀可以尽管进步核算卡操纵率、一同能, 官方版 又要确保效劳质量%硬件编造化]所供应本钱硬隔断才华:就很好处置了这一成就。其他我们还在第二代产品中参与了编解码撑持(在很多范视觉类事件中, 解码才华都是必需品。这个是我们昆仑芯软件一个架构:在系统层!除根底驱动法度!我们还有K8S套件}可以很便当]以容器化法子%对我们核算卡停止打点。昆仑芯软件架构图开拓套件方面{我们供应了自研高功用算子库XDNN]可以合意绝大大都模型核算需求’针对一些自研模型客户]我们也供应XTDK编译器及相关开拓套件。此外(我们还供应了高功用通讯库XCCL)和一个丹青}视频处置加快引擎。在构造方面:由于我们是百度内部孵化出来团队}我们与Paddle团队保持着非常严密协作干系[Paddle原生对昆仑芯片供应残破撑持[包含模型操练, 推理,

安插等。根据PaddlePaddle使用昆仑芯产品也是非常便当。关于其他第三方构造[如tensorflow}pytorch]我们则颠末自研XTCL图编译引擎;撑持模型推理与安插。道路图我们第一代昆仑芯使用14nm制程(INT16算力可达64TOPS?使用是HBM内存颗粒。产品有两个外形%别离是半高半长K100}供应一半算力?和全高全长K200:供应悉数算力。第二代昆仑芯:使用7nm制程}可以供应128TOPSINT16算力]如今有3个产品外形;别离是全高全长PCI-E核算卡R200, OAM核算模块R300[和效劳器基板R480。这个便是我们第二代昆仑芯封装后姿势%第二代昆仑芯使用16路PCI-E4接口[方案功耗为150W?算力方才也提到过:是128TOPS。昆仑芯2代封装图R200是如今我们主推推理产品(这里是它一些详细参数信息!显存巨细为16GB, 带宽可抵达512GB每秒?编解码话)可以撑持108路1080p30fps解码才华》和27路编码才华。R300是根据OCP标准制作一个OAM模块’和R200比力%R300核算才华是完全不异:不同是供应了32GB存储。R480是我们次要面向操练场景推出一个产品[它封装了8个R300{颠末主板上预置走线使得8个R300之间构成一个(高效%互联互通?通讯搜集。部分上可以供应差不多1PFP16算力。我们R200和商场同类产品在一些范例模型长停止实测功用对照{部分上我们可以说抵达了业界争先程度。芯展开说了这么多产品]我们其实必定非常关心我们昆仑芯理论使用与落地情况, 终究?有了理论使用?才算是真正为客户清楚明了价格。次要%我们作为一个从百度内部孵化出来公司:查找等必定是我们最次要场景。这些场景(他们川流不息原理都是比力类似:其本质上!在用户和目之间核算一个相关性}然后根据相关性排序:并归来相关性最高成效。对百度多么一个量级公司来讲!我们有10亿级其他用户、与万亿级其他目%那么在他们之间算相关性!核算量我们不成思议《一同)由于不竭有新数据爆[模型还要在线上及时停止重操练与更新。此外}这些都是及时势件、对推延与不变性恳求也极高。在百度内部(我们有估计20000张昆仑芯;在撑持着百度这些中心事务%部分上来看]比力同级其他原有方案(昆仑芯可以抵达1/3TCO收益。智能城市也是如今对AI算力需求比力大一个场景!这部分我们应当都比力理解!我就不再赘述{在这个范畴里!我们昆仑芯在海内几个城市里[也有很多安插量。财富视觉是近几年比力新式一个标?方才我们百度集体副总裁吴甜)在主论坛深化也提到了ai在财富质检方面使用。在药瓶缺陷检测这个case里;对算力恳求还不太大?但在一些精细零件消费线上’但跟着这个质检精度恳求进步]消费节拍加快)对算力恳求会越来越高。我们在这个标上也是落地了蛮多客户。我们昆仑芯产品]也是在百度内部(内部都大方案安插过}是阅历过大方案实战检测。总结一下, 昆仑芯在AI各个范畴都储蓄积累了多种处置方案)也抵达了较好一个收益。我们底层适配了多种处置器架构与国产操作系统?希冀可以为海浑家工智能工作做出本人奉献。 华体会体育hth首页

友情链接:华体会体育全站app - 首页   hth华体会(中国)官方网站   hth华体会最新网站-app下载