|
【博客转载】Row-Major VS Column-Major GiantPandaLLM · 公众号 · 3D · 13 小时前 · |
|
|
【博客转载】CUDA Coalesced Memory Access/CUDA Shared Mem... GiantPandaLLM · 公众号 · 3D · 2 天前 · |
|
|
【博客转载】C++/CUDA Data Alignment GiantPandaLLM · 公众号 · 3D · 3 天前 · |
|
|
【博客转载】CUDA Kernel Execution Overlap GiantPandaLLM · 公众号 · 3D · 4 天前 · |
|
|
[Triton编程][基础]vLLM Triton Merge Attention States K... GiantPandaLLM · 公众号 · 3D · 5 天前 · |
|
|
图解Vllm V1系列5:调度器策略(Scheduler) GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
Meta Shuffling的MoE Grouped GEMM kernel benchmark GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
MetaShuffling:Meta的Fused MoE kernel工程方案,更激进的Kernel... GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
[vLLM实践][算子] vLLM算子开发流程: "保姆级"详细记录 GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
图解Vllm V1系列4:加载模型权重(load_model) GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
[Triton编程][基础] Triton Fused Softmax Kernel详解: 从Pyt... GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
一键式训练端到端Agent,Qwen3+MCP工具集高效集成! GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
【CUDA 博客】使用PTX指令更高效地加载和存储矩阵 GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
LightLLM中DeepSeek V3/R1 Two MicroBatch Overlap 实现解... GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
[Triton编程][基础] Triton极简入门: Triton Vector Add GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
【CUDA 博客】TMA简介 & 让矩阵转置在Hopper GPUs上变得更快 GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
MCP&RL系统学,打榜赛尽情玩!书生大模型实战营第5期课程玩法双升级,火热报名中 GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
Sglang 源码学习笔记(三)- 分布式和并行(以deepseek 为例)(WIP) GiantPandaLLM · 公众号 · 3D · 4 周前 · |
|
|
sglang 源码学习笔记(二)- backend & forward 过程 GiantPandaLLM · 公众号 · 3D · 4 周前 · |
|
|
通过查看GPU Assembly分析CUDA程序 GiantPandaLLM · 公众号 · 3D · 1 月前 · |
|