搜索引擎lucene + heritrix读书笔记<1>

索引文件格式:

.fnm格式:包含Document中的所有field名称

.fdt格式: 用于存储具有Store.YES属性的field的数据

.fdx格式:是一个索引,用于存储Document在.fdt的位置

.tis格式:用于存储分词后的词条

.tii格式:是.tis对应的索引文件,标明每个.tis文件中的词条的位置

.cfs 复合索引格式. 当IndexWriter的属性useCompoundFile为true时,就是使用复合索引格式来保存索引。

索引建立过程中的关键组件:IndexWriter, IndexReader,IndexModifer

2 comments

  1. 恩,是的。刚把这本书看完,本来准备做个垂直搜索的,现在又得要学习下别的东西。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>