专栏名称: java一日一条
主要是讲解编程语言java,并且每天都推送一条关于java编程语言的信息
目录
相关文章推荐
芋道源码  ·  Spring Boot 中使用 JSON ... ·  2 天前  
芋道源码  ·  Java面试,问八股文的面试官水平很次? ·  2 天前  
芋道源码  ·  别乱分层,PO、VO、DAO、BO、DTO、 ... ·  3 天前  
芋道源码  ·  抱歉,最近我劝各位真的别轻易离职...... ·  3 天前  
51好读  ›  专栏  ›  java一日一条

简单理解倒排索引

java一日一条  · 公众号  · Java  · 2018-03-09 08:20

正文

请到「今天看啥」查看全文


图2 简单的倒排索引

之所以说图2所示倒排索引是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词,而事实上,索引系统还可以记录除此之外的更多信息。图3是一个相对复杂些的倒排索引,与图3的基本索引系统比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息(TF),即这个单词在某个文档中的出现次数,之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是很重要的一个计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。在图5的例子里,单词“创始人”的单词编号为7,对应的倒排列表内容为:(3:1),其中的3代表文档编号为3的文档包含这个单词,数字1代表词频信息,即这个单词在3号文档中只出现过1次,其它单词对应的倒排列表所代表含义与此相同。







请到「今天看啥」查看全文