搜索引擎lucene + heritrix读书笔记<1>

索引文件格式:

.fnm格式:包含Document中的所有field名称

.fdt格式: 用于存储具有Store.YES属性的field的数据

.fdx格式:是一个索引,用于存储Document在.fdt的位置

.tis格式:用于存储分词后的词条

.tii格式:是.tis对应的索引文件,标明每个.tis文件中的词条的位置

.cfs 复合索引格式. 当IndexWriter的属性useCompoundFile为true时,就是使用复合索引格式来保存索引。

索引建立过程中的关键组件:IndexWriter, IndexReader,IndexModifer

2 Responses to “搜索引擎lucene + heritrix读书笔记<1>”

  1. Joseph Pan 说到:

    看过这本书。讲的确实很详尽简单。不过有些地方有点啰嗦,价格也有点贵。

  2. amberlife 说到:

    恩,是的。刚把这本书看完,本来准备做个垂直搜索的,现在又得要学习下别的东西。

Leave a Reply