3D - 51好读

一键式训练端到端Agent，Qwen3+MCP工具集高效集成！

GiantPandaLLM · 公众号 · 3D · 3 天前 ·

【CUDA 博客】使用PTX指令更高效地加载和存储矩阵

GiantPandaLLM · 公众号 · 3D · 4 天前 ·

LightLLM中DeepSeek V3/R1 Two MicroBatch Overlap 实现解...

GiantPandaLLM · 公众号 · 3D · 5 天前 ·

[Triton编程][基础] Triton极简入门: Triton Vector Add

GiantPandaLLM · 公众号 · 3D · 6 天前 ·

【CUDA 博客】TMA简介 & 让矩阵转置在Hopper GPUs上变得更快

GiantPandaLLM · 公众号 · 3D · 1 周前 ·

MCP&RL系统学，打榜赛尽情玩！书生大模型实战营第5期课程玩法双升级，火热报名中

GiantPandaLLM · 公众号 · 3D · 1 周前 ·

Sglang 源码学习笔记（三）- 分布式和并行（以deepseek 为例）（WIP）

GiantPandaLLM · 公众号 · 3D · 1 周前 ·

sglang 源码学习笔记（二）- backend & forward 过程

GiantPandaLLM · 公众号 · 3D · 1 周前 ·

通过查看GPU Assembly分析CUDA程序

GiantPandaLLM · 公众号 · 3D · 2 周前 ·

单机H200最快DeepSeek V3和R1推理系统优化秘籍

GiantPandaLLM · 公众号 · 3D · 2 周前 ·

SGLang 源码学习笔记：Cache、Req与Scheduler

GiantPandaLLM · 公众号 · 3D · 2 周前 ·

在SGLang中使用reasoning模型

GiantPandaLLM · 公众号 · 3D · 2 周前 ·

【CUDA 优化】让RMSNorm变得更快

GiantPandaLLM · 公众号 · 3D · 3 周前 ·

图解Vllm V1系列3：KV Cache初始化

GiantPandaLLM · 公众号 · 3D · 3 周前 ·

SGLang Team：在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 ...

GiantPandaLLM · 公众号 · 3D · 3 周前 ·

【博客翻译】让前缀和变得更快

GiantPandaLLM · 公众号 · 3D · 3 周前 ·

图解Vllm V1系列2：Executor-Workers架构

GiantPandaLLM · 公众号 · 3D · 4 周前 ·