|
【Efficient AIGC】SiTo_ Similarity-based Token Pruni... GiantPandaLLM · 公众号 · 3D · 4 月前 · |
|
|
Fused AllGather_MatMul Triton工程实现 GiantPandaLLM · 公众号 · 3D · 4 月前 · |
|
|
谈谈对DeepSeek-R1的一些理解 GiantPandaLLM · 公众号 · 3D · 4 月前 · |
|
|
使用NCU和Cursor Claude-sonnet-3.5写出高效cuda算子的正确姿势 GiantPandaLLM · 公众号 · 3D · 4 月前 · |
|
|
再读MLA,还有多少细节是你不知道的 GiantPandaLLM · 公众号 · 3D · 4 月前 · |
|
|
PyTorch博客 《使用 Triton 加速 2D 动态块量化 Float8 GEMM 简介》 GiantPandaLLM · 公众号 · 3D · 4 月前 · |
|
|
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
精选25篇NIPS年度Paper,2024 AI研究总结 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
SGLang的Expert Parallel特性解读 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
简单聊聊Deepseek V3的FP8训练 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
PyTorch 原生FP8训练进展 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
[分布式训练与TorchTitan] PyTorch中的Async Tensor Paralleli... GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
使用torchtune把LLaMa-3.1 8B蒸馏为1B GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
图解Megatron TP中的计算通信overlap GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
将Diffusion模型的推理速度提升了8倍,顺利拿到6家企业offer GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
让预训练 Transformer 生成更长的文本/图像:位置编码长度外推技术 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
Triton Kernel 编译阶段 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
CUDA-MODE课程笔记 第17课 GPU集合通信(NCCL) GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|
|
AWQ:模型量化应当关注激活值 GiantPandaLLM · 公众号 · 3D · 5 月前 · |
|