专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

使用torchtune把LLaMa-3.1 8B蒸馏为1B

GiantPandaLLM · 公众号 · 3D · 2025-01-06 18:35

正文

请到「今天看啥」查看全文

为什么知识蒸馏有用?

知识蒸馏的理念是,相比从头开始训练或有监督微调,一个较小的模型可以通过使用教师模型的输出作为额外信号来获得更好的性能。例如,Llama 3.2轻量级1B和3B文本模型(https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/)在剪枝后通过整合Llama 3.1 8B和70B的logits来恢复性能。此外,在指令跟随任务的微调中,LLM蒸馏的研究表明,知识蒸馏方法可以优于单独使用有监督微调(SFT)。

下面是一个简化的例子,展示了知识蒸馏与有监督微调的区别。

torchtune中的知识蒸馏配方

使用torchtune,我们可以轻松地将知识蒸馏应用于Llama3以及其他LLM模型系列,这是通过使用torchtune的知识蒸馏配方(https://github.com/pytorch/torchtune/blob/4234b78b914af23384ce0348f564e2119d107a96/recipes/knowledge_distillation_single_device.py)实现的。这个配方的目标是通过从Llama3.1-8B蒸馏知识来在Alpaca指令跟随数据集上微调Llama3.2-1B。这个配方专注于训练后蒸馏,并假设教师和学生模型都已经预训练完成。

首先,我们需要下载模型权重。为了与其他torchtune微调配置保持一致,我们将使用Llama3.1-8B的指令调优模型作为教师模型,使用Llama3.2-1B作为学生模型。

tune download meta-llama/Meta-Llama-3.1-8B-Instruct --output-dir /tmp/Meta-Llama-3.1-8B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf_token 

tune download meta-llama/Llama-3.2-1B-Instruct --output-dir /tmp/Llama-3.2-1B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf_token

为了让教师模型的分布与Alpaca数据集相似,我们将使用LoRA对教师模型进行微调。基于我们在下一节展示的实验,我们发现当教师模型已经在目标数据集上进行了微调时,知识蒸馏的效果会更好。

tune run lora_finetune_single_device --config llama3_1/8B_lora_single_device

请到「今天看啥」查看全文

推荐文章

GiantPandaLLM · 【博客转载】CUDA Coalesced Memory Access/CUDA Shared Memory Bank

2 天前

GiantPandaLLM · 【博客转载】C++/CUDA Data Alignment

3 天前

GiantPandaLLM · 【博客转载】CUDA Kernel Execution Overlap

4 天前

G.P.A · 最重要的事，只有一件

8 年前

洞见 · 请远离低质量的勤奋，因为那比懒惰更可怕

8 年前

最搞笑笑话王 · 大妹子表演!太搞笑了!笑死不偿命！

8 年前

梧桐树下V · 净利润不足3000万元登陆上交所，台胞控股新三板公司成功转板特别提示实控人为境外人员的风险

8 年前

中金固定收益研究 · 【中金固收·宏观】从上市公司财务数据看未来的投资与库存

8 年前