Atitit.数据索引 的种类以及原理实现机制 索引常用的存储结构
1. 索引的分类1
1.1. 索引的类型 按查找方式分,两种,分块索引 vs编号索引1
1.2. 按索引与数据的查找顺序可分为 正排与倒排索引1
1.3. 单列索引与多列索引2
1.4. 分区索引和全局索引 2
2. 索引建立,更新的流程使用触发更新索引的事件2
3. 索引常用的存储结构 B树文件 叫做“索引顺序存取方法”(Indexed Sequential Access Method),缩写为ISAM。2
4. Trie树一般指字典树 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计3
5. 索引文件的合并问题4
6. 参考4
1. 索引的分类
Uniq
全文索引
Norma
Hash 索引(编号索引)
l
1.1. 索引的类型 按查找方式分,两种,分块索引 vs编号索引
一种是分块》分块类型。。一种是不分块,编号顺序排列类型
1.2. 按索引与数据的查找顺序可分为 正排与倒排索引
倒排索引
1.3. 单列索引与多列索引
1.4.
作者:: 绰号:老哇的爪子 ( 全名::Attilax akbar al rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 ) 汉字名:艾龙, EMAIL:1466519819@qq.com
转载请注明来源: http://blog.csdn.net/attilax
2. 索引建立,更新的流程使用触发更新索引的事件
1 大量数据插入的时候,考虑先删除索引,然后重建索引。这样做的缺点是业务不能同时进行
说明索引是类似与触发器,每增加一条记录触发一次创建立索引的流程
3. 索引常用的存储结构 B树文件 叫做“索引顺序存取方法”(Indexed Sequential Access Method),缩写为ISAM。
所谓索引,就是以某个字段为关键字的B树文件。假定有一张”雇员表”,包含了员工号(主键)和姓名两个字段。可以对姓名建立索引文件,该文件以B树格式对姓名进行储存,每个姓名后面是其在数据库中的位置(即第几条记录)。查找姓名的时候,先从索引中找到对应第几条记录,然后再从表格中读取。
这种索引查找方法,叫做“索引顺序存取方法”(Indexed Sequential Access Method),缩写为ISAM。它已经有多种实现(比如C-ISAM库和D-ISAM库),只要使用这些代码库,就能自己写一个最简单的数据库。
4. Trie树一般指字典树 又称单词查找树,,是一种,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计
。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比树高。
Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树。
Trie一词来自retrieve,发音为/tri:/ “tree”,也有人读为/traɪ/ “try”。
Trie树可以利用字符串的公共前缀来节约存储空间。如下图所示,该trie树用10个节点保存了6个字符串tea,ten,to,in,inn,int:
在该trie树中,字符串in,inn和int的公共前缀是“in”,因此可以只存储一份“in”以节省空间。当然,如果系统中存在大量字符串且这些字符串基本没有公共前缀,则相应的trie树将非常消耗内存,这也是trie树的一个缺点。
Trie树的基本性质可以归纳为:
(1)根节点不包含字符,除根节点意外每个节点只包含一个字符。
(2)从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
(3)每个节点的所有子节点包含的字符串不相同。
5. 索引文件的合并问题
当索引文件越来越大时候,就需要分布式存储在多个增量索引文件上..到时合并或者不合并.....
或者使用2进制方式增量存储..
6. 参考
paip.索引的种类以及实现attilax 总结 - attilax的专栏 - 博客频道 - CSDN.NET.htm
字典树_百度百科.htm (有代码实现