视觉Transformer精讲：如何深度优化ViT/DETR/SETR/CLIP等经典模型

算法与数学之美 · 公众号 · 算法 · 2025-05-07 10:08

正文

利物浦大学长聘副教授

前商汤自动驾驶感知团队研发副总监

2017年博士毕业于中国科学院自动化研究所模式识别国家重点实验室，2017-2023担任商汤科技自动驾驶感知团队研发副总监，带领团队完成多个大项目交付。

目前发表SCI和EI学术论文近80篇，被引用量近4000次，其中CCFA类国际期刊和会议(T-PAMI、IJCV、TIP、CVPR、ICCV、ECCV、AAA1、MultiMedia等)近30篇。申请国内及国外专利申请30个以上。

现主要研究方向为图像/视频场景理解，Deepfake Detection，机器人-自动驾驶感知算法，以及语言-视觉联合学习等。现主持(PI)一项Alan Turing Institute项目基金，并联合主持(Co-1)一项欧盟Horizion project。

课程大纲

（点击查看大图）

课程亮点

1.全栈式知识体系构建

从Transformer核心原理到CV经典任务(分类、检测、分割)再到多模态最前沿应用，覆盖ViT、DETR、SegFormer、CLIP、LLaVA等模型。

推荐文章

程序猿 · 爱学习的程序猿都关注这些技术公众号

8 年前

毒舌电影 · 那些不被在意的小事，往往毁掉我们一生

8 年前

微路况 · 【奇葩】键盘车神都这么喷~车全是废物？

8 年前

又有好物推荐 · 案例 | 北纬22°的爱情，蒙古汉子为追求潮汕姑娘，在海边改造了座旧民房，把生活酿成诗

8 年前

品玩 · “我想买一台5000元的小米手机”

8 年前