专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

【Efficient AIGC】SiTo_ Similarity-based Token Pruni...

GiantPandaLLM · 公众号 · 3D · 2025-01-26 22:39

正文

请到「今天看啥」查看全文

硬件友好，低计算开销 SiTo方法采用的操作非常低成本，不会增加额外的内存占用，且计算复杂度极低，非常适合在GPU等硬件平台上并行计算。这使得SiTo在边缘设备和实时互动应用中的应用具有广泛的前景，尤其是对于需要快速响应的应用场景，SiTo无疑是一种理想的加速方案。

训练无关，数据无依赖 与传统的加速方法不同，SiTo完全不依赖训练数据或校准数据，它不需要额外的训练步骤和调整，因此具有极强的通用性和即插即用性。这一特点使得SiTo可以在不同的数据集、不同的模型以及不同的采样设置下自由应用，极大地拓展了其实际应用的范围。

方法

SiTo的方法流程：

基础令牌选择 ：计算所有令牌之间的 余弦相似度 。对于每个令牌，将它与所有其他令牌的相似度求和，得到该令牌的 相似度得分（SimScore） 。接着，向相似度得分中添加 高斯噪声 ，以引入随机性，防止在不同时间步中选择相同的基础令牌和剪枝令牌。最后，选择在图像区域中具有最高 噪声相似度得分（Noise SimScore） 的令牌作为 基础令牌 。
剪枝令牌选择 ：选择与基础令牌最相似的令牌作为 剪枝令牌 。
剪枝令牌恢复 ：将未剪枝的令牌输入到神经网络层，然后通过从最相似的基础令牌中复制来恢复剪枝令牌。

结果

视觉效果：SiTo 保留更多的图像细节，更加对齐文本提示，以及和原始模型生成的结果更吻合

数值结果

（1）在ImageNet数据集上的评估 将ToMeSD和SiTo应用于SD v1.5和SD v2。表1显示，SiTo在所有加速比设置下相比ToMeSD具有更低的FID得分、更高的加速比和更低的内存使用。在剪枝比率为0.7的情况下，SiTo在硬件上实现了 1.9倍的加速 和 2.70倍的内存压缩 ，同时FID得分减少了 1.33 。