正文
图中左侧展示了 GNN 在电商用户-商品交互图上的嵌入结果,其中热门商品形成若干高密度簇,而小众商品分布稀疏;右侧展示了 GPT 在文本语义空间的嵌入结果,语义相似词语(如“repayment”,“refund”)聚集成簇,语义不同词语则离散分布。由此可见,生成模型所引入的多源、多模态特征导致向量分布的高度不均衡。
2. 数据集可视化与不均衡度量
为了量化分布不均衡对 ANNS 性能的影响,我们选择 SIFT(1M×128)、DEEP(1M×96)、GloVe(1.2M×100)和 ByteECom1(1M×128)四个典型数据集,分别通过 t-SNE 降维可视化样本。
【图2:四个
ANNS
数据集(
SIFT
, DEEP, GloVe, ByteECom1)的 t-SNE 可视化】
SIFT 数据集呈现相对均匀的散点分布;DEEP 数据集部分区域出现高密度簇;GloVe 数据集在语义维度上形成多个大小不一的簇;ByteECom1 则展示了极端不均衡,部分簇内点密集,而大部分点分散。基于上述可视化,我们引入 k-NN 连接度(Connectivity)作为衡量分布不均衡的指标:向量 v 在 k-NN 图中被其他向量选为邻居的次数,即其入度。在高维空间中,某些点的 k-NN 连接度极低(入度 < 50),反映了图结构的稀疏性。
【
图3:三个数据集
k-NN
连接度分布直方图
】
我们选取四个数据集中三个million-scale的数据集进行分析。以 k=50 为例,三幅 k-NN 入度直方图均呈明显的长尾分布:左侧的峰值区域表明大多数向量集中在中等连通度(20–40 条入边)附近,而右侧长长的尾部则揭示了少数节点拥有极高入度。具体来看,SIFT 中约 8% 向量入度低于 10,62% 入度低于 50;DEEP 中极低入度节点比例略高,63% 向量入度低于 50;ByteECom1 中高达 72% 向量入度低于 50。
3. 低连接度点的检索成本
低连接度点在图索引中的检索成本显著高于高连接度点。我们以 Vamana 索引为例,统计不同连接度下的平均距离计算次数。
k-NN
|
SIFT
|
DEEP (×10^3)
|
ByteECom1 (×10^4)
|
|
|
|
|
|