视觉提示新突破 | IDEA研究院发布T-Rex模型，解锁「一图胜千言」的Prompting新体验（微信文章未删减版）

首页

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

From ｜IDEA数字经济研究院

继火爆出圈的Grounded SAM之后，IDEA研究院团队携重磅新作归来：视觉提示（Visual Prompt）模型T-Rex，以图识图，开箱即用，开启开集检测新天地！

“拉框、检测、完成！”

在刚刚结束的2023 IDEA大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了基于视觉提示的目标检测新体验，并发布了全新视觉提示模型T-Rex的模型实验室（playground）, Interactive Visual Prompt（iVP），掀起现场一波试玩小高潮。（前往 https://deepdataspace.com/playground/ivp 亲自试玩）

在iVP上，用户可以亲自解锁“一图胜千言”的 Prompting：在图片上标记感兴趣的对象，向模型提供视觉示例，模型随即检测出目标图片中与之相似的所有实例。整套流程交互便捷，只需几步操作就可轻松完成。

操作演示

IDEA研究院4月份发布的Grounded SAM (Grounding DINO + SAM) 曾在Github上火爆出圈，至今已狂揽11K星。有别于只支持文字提示的Grounded SAM，此次发布的T-Rex模型提供着重打造强交互的视觉提示功能。

T-Rex具备极强的开箱即用特性，无需重新训练或微调，即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务，还为智能交互标注领域提供新的解决方案。

T-Rex应用潜力广泛

团队透露，研发视觉提示技术是源自对真实场景中痛点的观察。有合作方希望利用视觉模型对卡车上的货物数量进行统计。然而，仅通过文字提示，模型无法单独识别出每一个货物。其原因是工业场景中的物体在日常生活中较为罕见，难以用语言描述。在此情况下，视觉提示显然是更高效的方法。与此同时，直观的视觉反馈与强交互性，也有助于提升检测的效率与精准度。

基于对实际使用需求的洞察，团队将T-Rex设计成可以接受多个视觉提示的模型，且具备跨图提示能力。除了最基本的单轮提示模式，目前还支持以下三种进阶模式。

· 多轮正例模式：适用于视觉提示不够精准造成漏检的场景

· 正例+负例模式：适用于视觉提示带有二义性造成误检的场景

· 跨图模式：适用于通过单张参考图提示检测他图的场景

在同期发布的技术报告中，团队总结了T-Rex模型的四大特性：

T-REX模型四大特性

开放集：不受预定义类别限制，具有检测一切物体的能力

视觉提示：利用视觉示例指定检测目标，克服罕见、复杂物体难以用文字充分表达的问题，提高提示效率

直观的视觉反馈：提供边界框等直观视觉反馈，帮助用户高效评估检测结果

交互性：用户可通过便捷交互，积极参与检测过程，对模型结果进行纠错

T-REX模型由图像编码器、提示编码器、框解码器组成

研究团队指出，在目标检测场景中，视觉提示的加入能够补足文本提示的部分缺陷。未来，两者的结合将进一步释放CV技术在更多垂直领域的落地潜能。

报告链接： https://arxiv.org/abs/2311.13596

Github链接：trex-counting.github.io

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

最新论文解析

NeurIPS2022 Spotlight | TANGO：一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

推荐文章

财健道 · 每日医刻｜国产安奈拉唑钠肠溶片获国家药监局批 ... · 10 月前

防骗大数据 · 防骗 | ... · 2 年前

参考消息 · 最高检：必须罚！ · 2 年前

高杉LEGAL · 如何在「高杉LEGAL」发表文章？ · 3 年前

© 2022 51好读
删除内容请联系邮箱 2879853325@qq.com