文档介绍:该【中国最大AI计算芯片问世 走近燧原科技邃思芯片、云燧加速卡 】是由【游园会】上传分享,文档一共【7】页,该文档可以免费在线阅读,需要了解更多关于【中国最大AI计算芯片问世 走近燧原科技邃思芯片、云燧加速卡 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。中国最大AI 计算芯片问世 走近燧原科技
邃思芯片、云燧加速卡
来源:《微型计算机》2025 年第 16 期
提到AI 计算芯片和加速卡,人們第一时间想到的往往是英伟达推出的A 系列、T 系列产品。实际上随着国内芯片设计的进展,目前国内也有多家厂商推出了和AI 计算相关的加速芯片和加速卡,比方百度、阿里等。日前,燧原科技推出了他们旗下最的AI 计算芯片和加速卡,从规模来看,燧原科技这次推出的产品可谓中国目前最大,在性能方面也和国外同档次产品有一战之力。下面,我们就和你一起走近燧原科技,了解一下其推出的邃思芯片和云燧加速卡。
燧原科技是位于上海的一家半导体初创企业,其英文名为“Enflame”。燧原科技的两位创 始人分别是CEO 赵立冬和COO 张亚林。其中,赵立冬拥有清华大学电子工程学士和美国犹他州立大学电子计算机硕士学位,曾在S3、AMD、紫光、锐迪科等企业工作过,最高职位是紫 光集团副总裁。张亚林则是复旦大学电子工程学士学位获得者,同样有AMD 工作背景,并领导定制开发了Xbox One 主芯片,治理和进展了AMD 上海、北京研发部门等。从燧原科技两位创始人的背景可以看出,他们均有专业电子、集成电路的学习、工作背景,都曾经在全球领先的一线企业拥有多年工作阅历和丰富的行业资源。
燧原科技将自己定义为一家“专注人工智能领域云端算力平台,致力为人工智能产业进展 供给普惠的根底设施解决方案,供给自主学问产权的高算力、高能效比、可编程的通用人工智能训练和推理产品”的企业。目前,其推出的人工智能训练和推理产品品牌为云燧,芯片产品 品牌为邃思,软件品牌为驭算。
在了解了燧原科技的根本状况后,让我们一起来看看本次燧原科技公布的全产品的相关信息。
国内最大的AI 云端训练芯片:速思
芯片。从基板尺寸来看它是目前国内最大的AI 芯
片。邃思 芯片的封装尺寸长宽均为 ,整体封装面积到达了 ,不过这个数据是否包含了基板长度临时不得而知。相比之下,英伟达的A100 计算芯片同样承受了HBM 方案,其不包括HBM 存储的A100 计算芯片面积仅为 862mm2,和邃思 的数据相比差异相当大,其主要缘由可能是厂商统计数据的方法存在差异。
和这种计算芯片通常承受 7nm 甚至更高端的 5nm 工艺有所不同的是,邃思 承受的是格芯〔格罗方德〕的 12nm 工艺。有关工艺制程的信息,在公布会上并没有做太多介绍,但是可能使用的就是格罗方德在 2025 年公布的 12nm FD-SOI 工艺。这个工艺的优势在于能够实现极高的集成度,并且FD-SOI 技术的引入也使得整个芯片的功耗下降、性能提升。格芯的数据显示,FD-SOI 技术引入之后,他们的 12nm 工艺能够以低于 16nm FinFET 的功耗实现根本等同于 10nm FinFET 的性能,或者说相比 16nm FinFET 工艺性能提升 15%,功耗降低 50%。
虽然格芯 12nm FD-SOI 工艺的整体表现在同代工艺中算是佼佼者,但是考虑到半导体制造的代差碾压现象的存在,假设燧原科技能够承受台积电的7nm 工艺或者更的 5nm 工艺来制造产品的话,那么整个芯片的规模、性能、功耗等应当会再上一个台阶。那么,为什么燧原科技选择了比较老旧的工艺来制造这款产品呢?其主要缘由可能还是综合考虑了本钱、市场以及产品等因素。
对燧原科技这样的初创公司来说,台积电的7nm、5nm 工艺自然是好的,但是昂扬的流片费用和相关制造本钱在没有较大的市场来分摊的状况下,最终表到达产品上就是昂贵的单片售价。市场是敏感的,初创公司的品在技术、性能上没有确定优势的前提下,假设本钱和价格再没有优势的话,那么相比成熟公司或者跨国企业的产品,初创公司的产品就很难得到市场和买家的关注。因此很多初创企业在早期都会供给相对于市场上成熟产品大致相当的性能,却低得多的价格,或者背靠某个大企业进展定向选购,到底对芯片这种产品来说,有人用才能实现有效迭代。宁可早期少赚、不赚甚至略亏,都肯定要在自己的力量范围内维持整个市场的存在感和自己的产业生态圈,才能在—次次迭代中不断升级,形成自己在技术、产业和生态上的竞争优势。
从这点来考虑, 上承受 12nmT 艺是合理的,也是目前市场竞争条件下的最优解。
邃思 承受 圭寸装设计,整合 79 颗芯片。从芯片的外外表可以看出, 拥有一个计算核心和 4 个HBM2E 存储芯片,加起来一共有 5 个芯片。考虑到它封装 79 颗芯片,那么可能在下部还集成 74 颗HBM2E 芯片,最终达成了 64GB 的规格。
连续来看产品的相关参数。算力方面, 的单精度FP32 算力为 40TFLOPs,单精度张量TF32 算力为 160TFLOPS,整数INT8 算力为 320TOPs。此外,燧原科技宣称邃思 支持目前全部的AI 精度,包括FP32、TF32、FP16、BF16 和 INT8,不过由于公布会给出的消息不多,燧原科技没有给出局部数据精度格式下的算力状况,比方BF16〔不过后文的性能测试 有从侧面透露出一些信息〕。另外对于一些特别状况下的算力优化状况,公布会上也没有进展介绍。
相比目前最快的英伟达A100,A100 的 FP32 算力为 ,TF32 算力为156TFLOPS,BF16 算力为 321TFLOPS,INT8 算力为 624TOPS。虽然从确定理论数值上来看,A100 GPU 的在FP32、TF32 算力都要落后于邃思 。但是最核心的问题在于,A100 在目前AI 计算比较常用的BF16 和 INT8 格式上算力大幅领先邃思 。不仅如此,在计算目标
是稀疏矩阵的状况下,A100 GPU 的TF32、BF16 和INT8 算力会直接翻倍,这就不仅仅是硬件规模可以打算的内容了,
邃思 芯片承受了HBM2E 的存储方案,最高可以支持 64GB 容量的本地存储,带宽最高为 。外部接口则承受的是PCIe x16,这也是目前主流的AI 计算设备上常用的接口之一。
值得留意的是,邃思 在扩展性上拥有独特设计。其芯片内部设计了专用的通道,被称为 GCU-LARE 燧原智能互联总线,单路可以实现双向50GB/s 的带宽。邃思 内部拥有 6 路设计,总计可以实现 300GB/s 的双向互联带宽。由于独特的互联端口, 可以供给互联扩展算力的功能。这个功能格外重要, 摆脱了传统芯片仅仅依靠PCIe 总线沟通系统和互联的设计,而是可以依靠自己定义的总线自组织成网, 芯片的大规模、集群化应用打好了根底。
除了上述内容外,燧原科技没有具体地对整个芯片的架构、设计等内容进展介绍。期望将来能公布更具体的资料,使得大家也可以一窥芯片的架构和设计。
燧原科技的加速计算卡:云燧T20 和云燧T21
除了芯片产品邃思 外,燧原科技还在此次公布会上推出了加速计算卡品,其产品型号为云燧T20 和云燧T21。
先来看看云燧T20,这款产品承受的是传统PCIe 设备外观,需要占用双插槽。从外观来 看和一般的显卡没有太大差异。不过云燧T20 外壳没有设计散热器,应当是放置在机架中进展统一散热。云燧T20 和云燧T21 的 TDP 功耗分别为 300W 和 400W。
除了云燧T20 外,燧原科技还推出了云燧T21,承受的是OAM 模组设计。所谓OAM, 是指OCP Accelerator Module,也就是OCP 加速模块,这是百度、微软等企业联合推出的标准,用于标准化AI 硬件加速模块的系统设计。OAM 标准定义了一整套方案,包括AI 加速硬件在主板、机箱、供电、散热等方面的标准,通过OAM 标准,类似云燧T21 这样的产品就可以在不同的AI 加速设备中兼容使用。从外观上来看,云燧T21 和我们传统印象中的PCIe 设备差异很大,更像是自带了散热器和底座的CPU 模块。
目前云燧T20 和T21 全系列产品都支持单机多卡互联、多机多卡互联和超大规模集群互联。其中单机多卡互联适用于主流AI 效劳器,单机支持 8 张加速卡互联,适合中小型深度学 习训练场景。多机多卡的规模进一步扩大至数百张卡,可以支持中大型企业、院校运行深度学习训练的场景。最大的则是超大规模集群互联,支持以干为单位的节点互联,适用于云计算、超算中心等场景。
值得一提的是,由于邃思 参加了相关互联总线设计,因此组建多卡互联系统很便利。在公布会上还展现了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 。这个集群中包含了 8192 张云燧训练卡和DTU 芯片,能够以 80%的线性度输出性能, 级别的单精度计算力量。目前, 〔大约
130000TFLOPS〕的算力输出性能,云燧智算集群是首个能够到达这样高度的产品。
在公布会上燧原科技还介绍了旗下驭算Topsrider 架构的相关内容。目前驭算Topsrider
主要支持更高算力,支持更便捷高效的开发和更敏捷通用的场景。燧原科技展现了驭算Topsrider 的架构图,最底层是云燧T10 系列和云燧T20 系列硬件,通过驱动层,进入上层SDK 层之后,驭算Topsrider 可以支持TensorFlow、Pytorch、MxNet、OnnX 等主流框架, 最终再进入應用层。目前驭算Topsrider 也供给了格外完善的编译器、工具链、图形化整合开发环境、自编译支持以及高性能运行支持,格外便利。
比肩业内顶级的局部性能
和国内目前很多AI 芯片厂商的产品“只闻楼梯响,不见人下来”,性能总是模模糊糊相比,燧原科技在公布会上大大方方地展现了云燧T20 系列的性能。虽然竞争对手只写了“友商
旗舰”,但考虑到就算不是英伟达A100,而是上代旗舰产品,也说明白云燧T20 产品已经颇具
市场竞争力,要知道这还是一款 12nm 工艺制造的产品。
从燧原科技展现的信息可以看到,云燧T20 在TF32 性能的图像识别和分类、NLP、目标检测、图像分割等方面,根本上和友商旗舰水平相当。其中比较弱势的是NLP 和目标检测,
最差状况下只有比照产品的 60%和 80%性能。较好的是图像分割、图像识别和分类,根本拥有超过友商旗舰的性能。在和友商次旗舰的比照中,云燧T20 的性能领先幅度分别在 倍到
倍之间,整体性能不错。
在和两款GPU 比照的状况下,云燧T20 的 FP32 算力是GPU1 的 倍、TF32 算力是GPU1 的 倍,其余的BF16 算力、内存带宽、内存容量和互联带宽根本上可以到达GPU1 的1~2 倍,但是不如GPU2。考虑到云燧T20 只是燧原科技的其次款产品,这样的性能已经值得确定了。
燧原科技还使用云燧T20 和上代云燧T10 进展了比照。从数据来看,云燧T20 的性能根本上是云燧T10 的 ~ 倍,显示出不小的进步,尤其是TF32 算力暴增 倍,这显示云燧 T20 在架构上针对TF32 进展了充分优化。不过在BF16 方面,云燧T20 的整体性能提升幅度还不够。此外,在稀疏矩阵的性能优化上,云燧T20 也没表达出明显优势,这是将来燧原科技需要努力加强的局部。
燧原产品定律公布,性能稳步提升
在公布会上,燧原科技还公布了将来的产品路线图。其打算在2025 年公布的云端训练产品T30 和T31,每瓦特性能大约是 2025 年公布的初代T10 和T11 的 14 倍,或许也是最公布的T20 和T21 的 倍左右。如此巨大的性能提升,的产品在架构更的同时,可能会承受全工艺,使用更多的晶体管来实现更高的性能。
目前,燧原科技拥有推理计算产品云燧i10,马上公布的云燧i20 的每瓦特性能是云燧i10 的 4 倍,2025 年公布的云燧i30 的每瓦特性能应当是云燧i10 的 16 倍左右,值得期盼。
除了产品路线图,燧原科技还公布了“燧原产品定理”,那就是燧原科技的每一代产品相比前一代产品,在“平均业务”中,每瓦特性能要到达前代产品的至少3 倍,每单位价格性能要到达前代产品的至少 2 倍,并且保持软件兼容性和牢靠性等。
总的来看,燧原科技通过此次公布会展现了自己强大的技术研发力量和产品规划、应用力量。作为一个初创公司,燧原科技的AI 加速芯片产品已经具备肯定水准。同时燧原科技对将来产品的规划以及“燧原产品定理”的消灭,也给人们展现了这家公司坚决自主研发、提升产品 性能的信念。期望在将来的道路上,燧原科技能够坚持现在的研发主线,将自主AI 芯片做得越来越好,越来越强。星星之火,可以燎原。