GiantPandaLLM - 公众号 - 文章列表 - 历史文章

文章总数 1000+

51好读 › 专栏 › GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

最新

图文详解 Continuous Batch：不写 CUDA Kernel 也能成倍优化推理效率

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

CUDA-MODE 课程笔记第14课，Triton 实践指南

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

【翻译】CUDA-Free Inference for LLMs

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

揭秘 PagedAttention（上）：如何管理 Paged KV Cache

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

图解KV Cache：加速大模型推理的幕后功臣

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

Flex Attention API 应用 Notebook 代码速览

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

将GLM-4-Plus大模型应用到Cursor中

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

大语言模型推理，用动画一看就懂！

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

【翻译】【PyTorch 奇技淫巧】FlexAttetion 基于Triton打造灵活度拉满的Att...

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

【翻译】torch.compile 的详细示例解析教程

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

CUDA-MODE 课程笔记第13课：Ring Attention

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

大模型直接预测下一个句子，更快、更准、更长！

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

【PyTorch 奇技淫巧】介绍 depyf：轻松掌握 torch.compile

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

一文读懂 ONNX、TensorRT、OpenVINO部署框架

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

【翻译】CUTLASS 教程：掌握 NVIDIA® 张量内存加速器 (TMA)

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

一文读懂KVCache

GiantPandaLLM · 公众号 · 3D · 8 月前 ·

【翻译】深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用（文末送3本大模型书）

GiantPandaLLM · 公众号 · 3D · 9 月前 ·

人人都能看懂的DPO数学原理

GiantPandaLLM · 公众号 · 3D · 9 月前 ·

一文讲清 NCCL 集合通信原理与优化

GiantPandaLLM · 公众号 · 3D · 9 月前 ·

基于o1-preview解读 Optimized GPTQ INT4 Dequantization ...

GiantPandaLLM · 公众号 · 3D · 9 月前 ·

移动版

51好读 - 微信公众号文章