
大模子竞赛中,算力不再仅仅堆显卡江苏配资炒股资讯平台-股票配资学习资源汇总,更是抢后果。
濒临 H20 等推理卡在主流算子库下难以跑满性能的痛点,腾讯混元 AI Infra 团队认真开源坐蓐级高性能 LLM 推理核默算子库 HPC-Ops。

该算子库选拔 CUDA 和 CuTe 从零构建,通过综合化工程架构、微架构深度适配及请示级极致优化等,缩小底层算子开导门槛,将核默算子性能迫临硬件峰值,终清亮显耀性能封锁。
在确凿场景下,基于 HPC-Ops,混元模子推理 QPM 栽种30%,DeepSeek 模子 QPM 栽种17%。

同期,在单算子性能方面,HPC-Ops 终了 Attention 比拟 FlashInfer/FlashAttention 最高栽种 2.22 倍;
GroupGEMM 比拟 DeepGEMM 最高栽种 1.88 倍;FusedMoE 比拟 TensorRT-LLM 最高栽种 1.49 倍。
主流算子库亟需更适配的底层支合手
在大模子时期,诡计后果已成为 AI 应用及发展的要道瓶颈。
当今主流算子库(如 FlashInfer、DeepGEMM)多以NVIDIA H800等高配查验卡为紧要优化绸缪,但限于客不雅原因,不少大模子的大范围线上推理做事只可选拔 H20 等推理型诡计卡。
现存 SOTA 算子库在这些显卡上陆续难以阐发硬件峰值才能。
同期业务侧对极致朦拢、低延伸以及 Blockwise FP8 等复杂量化政策的需求日益蹙迫,亟需更适配的底层支合手。
追思来看,现存主流算子库主要存在以下痛点。
使用资本高
主流算子库联想复杂,中枢 Kernel 封装深,在其上修改适配资本相配高,除了对代码相配熟练的开导者,平庸的 AI 商榷者很难在其上适配修改。
而大模子的好多加快商榷转换,比如量化算法和投契采样等才能都严重依赖于与之匹配的高效算子终了。
比如最初始 4bit 和 8bit 的量化算法出来后,诚然表面上加载数据量减少,但由于莫得与之匹配的低精度算子终了,低精度量化在很长的一段时刻内都是负优化。
绸缪硬件不匹配
现存的主流算子库都所以 H800 等显卡为绸缪优化、NVIDIA 提供的 CUTLASS 等算子更所以 Blackwell 架构为绸缪,而当今国内主流的推理显卡则有所不同。
不同硬件间算力带宽的差距导致 Kernel 的优化才能也会不同,因此现存的算子库在国内主流推理卡上的进展并未阐发出硬件的沿途性能。
基于以上问题,腾讯混元使用 CUDA 和 CuTe 开导了一套轻量、高效的 LLM 核默算子库。
用 CUDA 和 CuTe 从零构建
该算子库主要包括 FusedMoE、Attention、机内 / 机间通讯、Norm、Sampler、以及各类小算子的会通算子模块,合座算子库架构如下图所示。

通过分析任务特点和硬件微架构,将任务的分辩逻辑与硬件请示作念了更好的对皆,以此得到更好的性能,况兼对工程代码进行了操纵的综合,让开导者能聚焦于算法自己,缩小吝惜门槛。
该算子库不仅是高性能坐蓐用具,也可当作开导者真切连结 CUTLASS 与 CuTe 工业级开导的推论范本,具体的技能细节如下。
任务特点与硬件才能对皆
针对访存瓶颈的算子,其性能主要受限于数据加载速率。
针对国内的主流推理显卡,通过调节请示辐射限定进行数据预取优化,确保数据传输单位一直处于高应用率。
针对不同的问题规格作念了更精细的请示对皆和优化,去除冗余低效请示以减少算力的突然,如针对 Decode Attention 和小 batch 下的 GroupGEMM 都作念了 AB 矩阵交换的优化;
以此对皆到硬件架构上的 wgmma 请示,访存带宽可达到硬件峰值才能的 80% 以上。

Attention SwapAB 暗示图精细的任务颐养和数据重排
针对每个算子问题,都重新念念考了任务数据的分辩颐养政策,尽可能保证每个 SM 都任务平衡的同期兼顾 cache 的连气儿性。
况兼选拔了 persistent kernel 的格式荫藏 kernel prologue 和 epilogue 的支拨。
另外也通过数据重排减少了出奇的操作和显存占用。
比如在 FP8 Attention Kernel 中转换性选拔了 Interleave 重排技能,惩办了请示不匹配的问题,减少线程间数据 shuffle,得到了优于业界 SOTA 的算子性能。
聚焦于诡计逻辑自己
GPU 编程的复杂度很猛进程上开端于操作的复杂性,为了能使用高效请示,一般需要对数据进行屡次的重证明和变换等编程技能,这大大加剧了开导者的心智职守。
因此基于 CuTe 推广开导 vec 综合层和解负责高效数据搬运,应用 Layout 代数综合阻滞复杂的 Tiling 与诡计逻辑,让开导者能聚焦于算法自己,缩小吝惜门槛。
要道履行结果
通过以上高效算子终了,在混元模子上将 QPM 端到端栽种 30%,DeepSeek 上 QPM 栽种 17%。
同期针对 LLM 中核算子模块进行了测试,以常用的模子规格(混元、DeepSeek)进行了测试,并对比了当今主流的算子库终了。
履行标明,在 LLM 的中枢模块 Attention 和 FusedMoE 上的性能都突出当下 SOTA 终了。
GroupGEMM
与 DeepGEMM ( v2.2.0 ) 的两种版块进行对比,在 Batch
且通过活水线覆盖技能 Blockwise 与 PerTensor 性能险些合手平;
在大 Batch 场景下,亦能保合手约 1.1x 的高出上风。该算子同期兼容紧密排布与 Token 不连气儿输入,显耀减少临时显存用量。

GroupGEMM 性能对比图 FusedMoE
齐备封装了包括前序数据重排、GroupGEMM 及后续 Reduce 加权平均在内的全进程模块 .
并在序列长度取 16 倍数的平衡分拨规格下,对比了 vLLM (v0.11.0)与 TensorRT-LLM (v1.1.0)的终了。
测试结果认知,该 FusedMoE 模块在 TP 场景下比拟 TensorRT-LLM 栽种显耀,最大性能栽种达 1.49x;在 EP 模拟平衡场景下最大栽种 1.09x。
针对不同输入长度选拔的各异化重排政策,进一步确保了合座模块在各类规格下的最优进展。

FusedMoE 性能对比图 Attention
针对 Prefill 场景,测试 128~64K 的输入长度。
在 batch 较小时,BF16 精度下比拟 SOTA 终了栽种 1.3x;在大 batch 时基本与刻下 SOTA 对皆。
针对 Decode 场景,凭据线上 SLO 遏抑,搭配一组 batch 和输入长度的测试用例,BF16 精度下提 1.35x~2.22x;
FP8 精度下,当 Sequence Length 较小时与 SOTA 十分,当 Sequence Length 较大时比拟 SOTA 栽种 1.09x~2.0x。

Attention 性能对比图算子库刻下才能和改日发展标的
当作面向大模子推理场景的高性能算子库,HPC-Ops 凭借 Attention、FusedMoE、GroupGEMM 等核默算子的极致优化,达成最高 2.22 倍的性能栽种,且已在腾讯大范围坐蓐环境中完成考据。
其精真金不怕火易用的 API 可无缝对接 vLLM、SGLang 等主流推理框架,原生支合手 BF16、FP8 等多精度量化决议。
同期还以 CuTe、CUTLASS 为基础,提供了数百行代码即可构建 SOTA 算子的推论圭表,为开导者缩小了高性能 CUDA 内核的开导门槛。
在改日的发展权术中,HPC-Ops 将合手续深耕大模子推感性能的封锁标的。
一方面,将重心研发稀罕 Attention 算子,针对性惩办长高下文大模子的内存与算力瓶颈;
另一方面,会拓展更丰富的量化政策,覆盖 4bit/8bit 羼杂精度等更大批化决议,进一步平衡推理速率与模子精度。
此外,算子库还将布局诡计 - 通讯协同优化的内核,通过会通多 GPU 间的诡计逻辑与通讯进程,大幅缩小散布式推理场景下的通讯支拨,为超大范围大模子的高效部署提供底层支合手。
当今,HPC-Ops 已在 GitHub 通达源码供开导者下载使用。
同期腾讯混元 Infra 团队也线路,宽宥行业内的技能推论者提交高价值 PR,参与算子旯旮场景优化、教程案例打磨等精确化孝顺,共同激动大模子推理技能的领域拓展。
GitHub 花样地址:https://github.com/Tencent/hpc-ops
一键三连「点赞」「转发」「防备心」
宽宥在辩驳区留住你的主见!
— 完 —
咱们正在招聘别称眼疾手快、体恤 AI 的学术裁剪实习生 � �
感兴趣兴趣的小伙伴宽宥体恤 � � 了解信托

� � 点亮星标 � �
科技前沿进展逐日见江苏配资炒股资讯平台-股票配资学习资源汇总
江苏配资炒股资讯平台-股票配资学习资源汇总提示:本文来自互联网,不代表本网站观点。