|
一键式训练端到端Agent,Qwen3+MCP工具集高效集成! GiantPandaLLM · 公众号 · 3D · 3 天前 · |
|
|
【CUDA 博客】使用PTX指令更高效地加载和存储矩阵 GiantPandaLLM · 公众号 · 3D · 4 天前 · |
|
|
LightLLM中DeepSeek V3/R1 Two MicroBatch Overlap 实现解... GiantPandaLLM · 公众号 · 3D · 5 天前 · |
|
|
[Triton编程][基础] Triton极简入门: Triton Vector Add GiantPandaLLM · 公众号 · 3D · 6 天前 · |
|
|
【CUDA 博客】TMA简介 & 让矩阵转置在Hopper GPUs上变得更快 GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
MCP&RL系统学,打榜赛尽情玩!书生大模型实战营第5期课程玩法双升级,火热报名中 GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
Sglang 源码学习笔记(三)- 分布式和并行(以deepseek 为例)(WIP) GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
sglang 源码学习笔记(二)- backend & forward 过程 GiantPandaLLM · 公众号 · 3D · 1 周前 · |
|
|
通过查看GPU Assembly分析CUDA程序 GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
单机H200最快DeepSeek V3和R1推理系统优化秘籍 GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
SGLang 源码学习笔记:Cache、Req与Scheduler GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
在SGLang中使用reasoning模型 GiantPandaLLM · 公众号 · 3D · 2 周前 · |
|
|
【CUDA 优化】让RMSNorm变得更快 GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
图解Vllm V1系列3:KV Cache初始化 GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 ... GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
【博客翻译】让前缀和变得更快 GiantPandaLLM · 公众号 · 3D · 3 周前 · |
|
|
图解Vllm V1系列2:Executor-Workers架构 GiantPandaLLM · 公众号 · 3D · 4 周前 · |
|