专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
字节跳动技术团队  ·  远程访问代理+内网穿透:火山引擎边缘网关助力 ... ·  6 小时前  
字节跳动技术团队  ·  稀土掘金 x Trae ... ·  6 小时前  
51好读  ›  专栏  ›  字节跳动技术团队

向量检索吞吐量提升9.1倍!字节数据库图团队与新国大联合成果入选 ICDE 2025

字节跳动技术团队  · 公众号  · 架构  · 2025-05-30 13:28

正文

请到「今天看啥」查看全文


图中左侧展示了 GNN 在电商用户-商品交互图上的嵌入结果,其中热门商品形成若干高密度簇,而小众商品分布稀疏;右侧展示了 GPT 在文本语义空间的嵌入结果,语义相似词语(如“repayment”,“refund”)聚集成簇,语义不同词语则离散分布。由此可见,生成模型所引入的多源、多模态特征导致向量分布的高度不均衡。

2. 数据集可视化与不均衡度量

为了量化分布不均衡对 ANNS 性能的影响,我们选择 SIFT(1M×128)、DEEP(1M×96)、GloVe(1.2M×100)和 ByteECom1(1M×128)四个典型数据集,分别通过 t-SNE 降维可视化样本。

【图2:四个 ANNS 数据集( SIFT , DEEP, GloVe, ByteECom1)的 t-SNE 可视化】

SIFT 数据集呈现相对均匀的散点分布;DEEP 数据集部分区域出现高密度簇;GloVe 数据集在语义维度上形成多个大小不一的簇;ByteECom1 则展示了极端不均衡,部分簇内点密集,而大部分点分散。基于上述可视化,我们引入 k-NN 连接度(Connectivity)作为衡量分布不均衡的指标:向量 v 在 k-NN 图中被其他向量选为邻居的次数,即其入度。在高维空间中,某些点的 k-NN 连接度极低(入度 < 50),反映了图结构的稀疏性。

图3:三个数据集 k-NN 连接度分布直方图

我们选取四个数据集中三个million-scale的数据集进行分析。以 k=50 为例,三幅 k-NN 入度直方图均呈明显的长尾分布:左侧的峰值区域表明大多数向量集中在中等连通度(20–40 条入边)附近,而右侧长长的尾部则揭示了少数节点拥有极高入度。具体来看,SIFT 中约 8% 向量入度低于 10,62% 入度低于 50;DEEP 中极低入度节点比例略高,63% 向量入度低于 50;ByteECom1 中高达 72% 向量入度低于 50。

3. 低连接度点的检索成本

低连接度点在图索引中的检索成本显著高于高连接度点。我们以 Vamana 索引为例,统计不同连接度下的平均距离计算次数。

k-NN
Connectivity
SIFT
(×10^2)
DEEP (×10^3) ByteECom1 (×10^4)
10
8.17
1.68
3.73
50






请到「今天看啥」查看全文