文章总数 1000+
51好读  ›  专栏  ›  GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
Fused AllGather_MatMul Triton工程实现
GiantPandaLLM  ·  公众号  · 3D  ·  4 月前  · 
谈谈对DeepSeek-R1的一些理解
GiantPandaLLM  ·  公众号  · 3D  ·  4 月前  · 
再读MLA,还有多少细节是你不知道的
GiantPandaLLM  ·  公众号  · 3D  ·  4 月前  · 
PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
精选25篇NIPS年度Paper,2024 AI研究总结
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
SGLang的Expert Parallel特性解读
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
简单聊聊Deepseek V3的FP8训练
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
PyTorch 原生FP8训练进展
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
使用torchtune把LLaMa-3.1 8B蒸馏为1B
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
图解Megatron TP中的计算通信overlap
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
Triton Kernel 编译阶段
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
CUDA-MODE课程笔记 第17课 GPU集合通信(NCCL)
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  · 
AWQ:模型量化应当关注激活值
GiantPandaLLM  ·  公众号  · 3D  ·  5 月前  ·