发表时间: 2019-05-30 14:20:18
作者: 广东八戒商务信息服务有限公司
浏览:
我简要介绍了搜索引擎的索引系统。事实上,在建立倒排索引的最后,还有一个编写库的过程。为了提高效率,需要将所有术语和偏移保存在文件头中。部门,以及数据的压缩,这在技术上太难以提及了。今天,我将简要介绍一下索引后的检索系统。 检索系统由五部分组成,如下图所示:
(1)查询横切分词是对用户的查询词进行分词,并为后续查询做准备。以“10号线地铁故障”为例。可能的分词如下(暂时跳过同义词问题): 100x123abc No.0x13445d 第0x234d行 地铁0x145cf 故障0x354df (2)查找包含每个术语的文档集合,即查找要选择的候选项,如下所示: 0x123abc 1 2 3 4 7 9 .. 0x13445d 2 5 8 9 10 11 .. .. .. (3)交叉口,上述交往,文件2和文件9可能是我们需要找到的,整个交往过程实际上与整个系统的性能有关,包括使用缓存和其他手段性能优化; (4)各种过滤器,例子可能包括过滤死链,重复数据,色情,垃圾结果和你所知道的; (5)最终排序,对最符合用户需求的结果进行排序,可能包括以下有用信息:网站整体评价,网页质量,内容质量,资源质量,匹配度,分散度,及时性等我稍后会详细介绍给你。