三、MongoDB索引机制
任何数据库都有索引这一核心功能,MongoDB
自然不例外,而且MongoDB
在索引方面特别完善,毕竟作为数据库领域的后起之秀,它集百家之长,将“借鉴”这一思想发挥到了极致,先来看看MongoDB
索引的概念词:
单列索引、组合索引、唯一索引、全文索引、哈希索引、空间(地理位置)索引、稀疏索引、TTL索引……
怎么样?相信看过MySQL索引这篇文章的小伙伴一定眼熟,其中的索引名词和MySQL
十分相似,接下来咱们挨个接触一下,当然,这里也先给出官方文档地址:MongoDB索引机制。
PS:早版本的
MongoDB
中,索引底层默认使用B-Tree
结构,而4.x
版本后,MongoDB
推出了V2
版索引,默认使用变种B+Tree
来作为索引的数据结构(和MySQL
索引的数据结构相同)。
3.1、初识MongoDB索引
在之前提到过,MongoDB
会为每个集合生成一个默认的_id
字段,该字段在每个文档中必须存在,可以手动赋值,如果不赋值则会默认生成一个ObjectId
,该字段则是集合的主键,MongoDB
会基于该字段创建一个默认的主键索引,后续基于_id
字段查询数据时,会走索引来提升查询效率。
但当咱们基于其他字段查询时,由于未使用_id
作为条件,这会导致find
语句走全表查询,即从第一条数据开始,遍历完整个集合,从而检索到目标数据。当集合中的数据量,达到百万、千万、甚至更高时,意味着效率会直线下滑,在这种情况下,必须得由我们手动为频繁作为查询条件的字段建立索引。
这里咱们先来说说索引的分类,同MySQL
一样,站在不同维度上来说,可以衍生出不同的分类。
从字段数量的维度划分:
• 单列索引:基于一个字段建立的索引;
• 组合索引:也叫复合索引、多列索引、联合索引,是由多个字段组成的索引;
• 多键索引:和上面的不同,如果索引字段为数组类型,MongoDB
会专门为每个元素生成索引条目;
• 部分索引:使用一个或多个字段的前N
个字节创建出的索引;
从排序维度上划分:
• 升序索引:一或多个字段组成的索引,排序方式完全为升序(从小到大);
• 降序索引:一或多个字段组成的索引,排序方式完全为降序(从大到小);
• 多序索引:多个字段组成的索引,但其中一部分字段为升序,一部分字段为降序;
从功能维度划分:
• 主键索引:MongoDB
中默认为_id
字段且不能更改,用于维护聚簇索引树;
• 普通索引:一或多个字段组成的索引,没有任何特殊性,只为提升检索效率;
• 唯一索引:一或多个字段组成的索引,值不能重复,且只允许一个文档不插入索引字段;
• 全文索引:一或多个字段组成的索引,集合内只能有一个,可以基于索引字段进行全文检索;
• 空间索引:基于地理空间数据字段创建的索引,支持平面几何的2D
索引和球形几何的2D sphere
索引;
从索引性质维度划分:
• 稀疏索引:结合唯一索引使用,允许一个唯一索引字段,出现多个null
值;
• TTL索引:类似于Redis
的过期时间,为一个字段创建TTL
索引后,超时会自动删除整个文档;
• 隐藏索引:在不删除索引的情况下,把索引隐藏起来,语句执行时不再走索引,相当于关闭索引;
• 通配符索引:给内嵌文档、且会发生动态变化的字段创建的索引;
从存储方式维度划分:
• 聚簇索引:索引数据和文档数据存储在一起的索引;
• 非聚簇索引:索引数据和文档数据分开存储的索引;
从数据结构维度划分:
• B+树索引:索引底层采用B+Tree
结构存储;
• 哈希索引:索引底层采用Hash
结构存储;
显而易见,这里又出现了一堆索引相关的名词,不过好在其中大部分概念,和MySQL
索引的概念相同,下面展开聊聊。
3.2、MongoDB索引详解
先来看看MongoDB
中创建索引的命令,如下:
db.collection.createIndex(<key and index type specification>, <options>);
前面提到的所有索引,都是通过这一个方法创建,不同类型的索引,通过里面的参数和选项来区分,下面说明一下参数和可选项。
第一个参数主要是传字段,以及索引类型,这里可以传一或多个字段,用于表示单列/复合索引。
第二个参数表示可选项,如下:
• background
:是否以后台形式创建索引,因为创建索引会导致其他操作阻塞;
• unique
:是否创建成唯一索引;
• name
:指定索引的名称;
• sparse
:是否对集合中不存在的索引字段的文档不启用索引;
• expireAfterSeconds
:指定存活时间,超时后会自动删除文档;
• v
:指定索引的版本号;
• weights
:指定索引的权重值,权值范围是1~99999
,当一条语句命中多个索引时,会根据该值来选择;
接着还是以之前的xiong_mao
集合为例,来阐述索引相关内容,数据如下:
db.xiong_mao.insert([
{_id:1,name:"肥肥",age:3,hobby:"竹子",color:"黑白色"},
{_id:2,name:"花花",color:"黑白色"},
{_id:4,name:"黑熊",age:3,food:{name:"黄金竹",grade:"S"}},
{_id:5,name:"白熊",age:4,food:{name:"翠绿竹",grade:"B"}},
{_id:6,name:"棕熊",age:3,food:{name:"明月竹",grade:"A"}},
{_id:7,name:"红熊",age:2,food:{name:"白玉竹",grade:"S"}},
{_id:8,name:"粉熊",age:6,food:{name:"翡翠竹",grade:"A"}},
{_id:9,name:"紫熊",age:3,food:{name:"烈日竹",grade:"S"}},
{_id:10,name:"金熊",age:6,food:{name:"黄金竹",grade:"S"}}
]);
3.2.1、单列索引
db.xiong_mao.createIndex({name: -1}, {name: "idx_name"});
这代表着基于name
字段,创建一个名为idx_name
的单列普通索引,-1
代表降序,不过对于单字段的索引而言,排序方式并不重要,因为索引底层默认是B+Tree
,每个文档之间会有双向指针,为此,MongoDB
基于单字段索引查询时,既可以向前、也可以向后查找数据,示意图如下:
MongoDB索引
创建完成后,可以通过db.xiong_mao.getIndexes()
命令查询索引,如下:
[
{v: 2, key: { _id: 1 }, name: '_id_'},
{v: 2, key: { name: -1 }, name: 'idx_name'}
]
这里可以看到,MongoDB
默认给_id
字段创建的索引,第二个则是咱们手动创建的索引,索引的版本为2
(如果不指定索引名,会按“字段名+下划线+排序方式”规则默认生成)。
再来看一种情况,例如现在将集合中的爱好字段,变为一个数组:
{_id:1, name:"肥肥", age:3, hobby:["竹子", "睡觉"], color:"黑白色"}
现在给hobby
字段创建一个索引,这时叫啥索引?多键索引!因为这里是基于单个数组类型的字段在建立索引,所以MongoDB
会为数组中的每个元素,都生成索引的条目(即索引键),由于一个文档的数组字段,拥有多个元素,因此会创建多个索引键,这也是“多键索引”的名字由来。
3.2.2、复合索引
复合索引是指基于多个字段创建的索引,例如:
db.xiong_mao.createIndex({name:-1, age:1}, {name:"idx_name_age"});
这里基于name、age
字段两个字段,创建了一个复合索引,其中指定了按name
降序、age
升序,这个排序就有意义了,MongoDB
生成索引键时,会按照指定的顺序,来将索引键插入到树中。
说明:索引键=索引字段的值,比如现在一个文档的
name=zhuzi、age=3
,索引键为zhuzi3
。 注意:由于这里的顺序是{name:-1, age:1}
,所以当排序查询时,支持sort({name:-1,age:1})、sort({name:1,age:-1})
,因为这两个顺序和树的组成顺序要么完全相同、相反,而当执行sort({name:-1,age:-1})、sort({name:1,age:1})
排序查询时,将不会使用索引,因为这时和树的顺序冲突。
这里咱们用explain
命令浅浅分析一下:
db.xiong_mao.find({}).sort({name:1,age:1}).explain("executionStats");
db.xiong_mao.find({}).sort({name:-1,age:1}).explain("executionStats");
执行结果信息比较多,这里只贴出关键信息,如下:
排序索引对比
从图中能明显看出,第一条与索引顺序冲突的语句,走的是COLLSCAN
全集合扫描;而第二条复合索引顺序的语句,走的是IXSCAN
索引扫描,使用了name_-1_age_1
这个索引检索到了数据,因此这点在使用复合索引时一定要注意!
同时,因为刚刚又给name、age
字段建立了一个复合索引,所以最开始建立name
单列索引,属于冗余的重复索引,这时可以通过dropIndex
命令删除掉,如下:
// 自定义名称创建的索引,需要传入名称删除
db.xiong_mao.dropIndex("name_-1");
// 使用默认名称创建的索引,可以直接传入创建时的字段+顺序
db.xiong_mao.dropIndex({name:-1});
// 这个方法可以删除一个集合的所有索引(除开默认的_id索引外)
db.xiong_mao.dropIndexes();
顺便这里也提一句,如果索引在创建时未指定名称,中途是不可以重命名的,只能先删再建时重新命名。
3.2.3、唯一索引
唯一索引相信大家都熟悉,它必须创建在不会出现重复值的字段上,基于唯一索引查找数据时,找到第一个满足条件的数据,就会立马停止匹配,毕竟该字段的值在集合中是唯一的,创建的方式如下:
db.xiong_mao.createIndex({name:1}, {unique: true});
只需要将unique
设置为true
即可,现在再尝试向集合中插入一条name
重复的文档:
db.xiong_mao.insertOne({name: "肥肥"});
[Error] index 0: 11000 - E11000 duplicate key error collection:
zhuzi.xiong_mao index: name_1 dup key: { name: "肥肥" }
这时就会因为name
值违反唯一约束而报错。OK,再来看一个特殊情况:
db.xiong_mao.insertOne({_id:66, age: 1});
db.xiong_mao.insertOne({_id:77, age: 2});
这时大家查询一下该集合,会发现_id=66
这条数据会插入进去,而77
这条数据会报错,这是为什么?
因为MongoDB
中,可以向集合中动态插入不同的字段,上面两条语句都没有指定name
字段,这时MongoDB
默认会将这两条语句的name
字段置空,而name=null
的情况,也会被当作一个索引键,插入到索引树中。由于name
字段建立了唯一索引,因此空值情况也只能出现一次。
那这个问题能不能解决呢?当然可以,这里需要用到稀疏索引,“稀疏”是索引的一种特性,如下:
// 先删除索引
db.xiong_mao.dropIndex("name_1");
// 再重新建立一次,并将sparse选项置为true
db.xiong_mao.createIndex({name:1}, {unique:true, sparse:true});
这时再执行前面的两条语句,就能同时插入了!后续可以通过null
值,来查询没有唯一索引字段的文档:
db.xiong_mao.find({name:null});
3.2.4、部分索引
部分索引即使用字段的一部分开创建索引,但必须要结合partialFilterExpression
选项来实现,如下:
db.xiong_mao.createIndex(
// 给hobby字段创建索引
{hobby:1},
{partialFilterExpression:{
hobby:{
// 只为存在hobby字段的文档创建索引
$exists:true,
// 通过$substr操作符,截取前1个字节作为索引键
$expr:{$eq:[{$substr:["$hobby",0,1]},"prefix"]}
}
}}
);
其实这就类似于MySQL
中的前缀索引,不过MongoDB
的中的部分索引功能更强大,还可以只为集合中的一部分文档创建索引,例如:
db.xiong_mao.createIndex(
{age: -1},
// 只为集合中年龄大于2岁的文档创建索引
{partialFilterExpression: {age: {$gt: 2}}}
);
为此,这里纠正一下:在最开始给出的索引分类概念中,将部分索引解释成了前缀索引的概念,实则不然,其实还可以为集合里的一部分数据创建索引!
3.2.5、TTL索引
TTL
索引这个类型比较有趣,可以基于它实现过期自动删除的效果,主要依靠expireAfterSeconds
选项来创建,不过只能在Date、ISODate
类型的字段上,建立TTL
索引,如下:
db.test_ttl.insertMany([
// new Date()表示插入当前时间
{_id:1,time:newDate()},
{_id:2,time:newDate()},
{_id:3,time:newDate()},
{_id:4,time:newDate()},
{_id:5,notes:"这条数据用于观察TTL删除特性"}
]);
db.test_ttl.find();
db.test_ttl.createIndex({time:1},{expireAfterSeconds:10});
上面新建了一个ttl_test
集合,并向其中插入了5
条数据,接着对time
字段创建了一个TTL
索引,给定的过期时间为10s
,这里咱们稍等12s
左右再去查询:
db.test_ttl.find();
[{_id: 5, notes: '这条数据用于观察TTL删除特性'}]
此时会发现,只剩下了_id=5
这条没有time
字段的数据,从这点就可以观察出TTL
索引的特性,不过大家在使用时需要注意:TTL
索引只能建在单字段上,不支持建立TTL
复合索引;同时,TTL
索引只能建立在类型为Date、ISODate
的字段上,在其他类型的字段上建立TTL
索引,文档永远不会过期。
这里说明一下,为什么TTL
索引必须基于Date
类型的字段创建呢?因为MongoDB
会使用该字段的值,作为计算的起始时间,如果在一个Date
数组类型的字段上建立TTL
索引,MongoDB
会使用其中最早的时间来计算过期时间。
3.2.6、全文索引
在MySQL
中想实现模糊查询,一般会采用like
关键字;而在MongoDB
中想实现模糊查询,官方并没有提供相关方法与操作符,只能通过自己写正则的形式,实现模糊查找的功能,那有没有更好的方法呢?答案是有,为相应字段创建全文索引即可。
全文索引在之前讲MySQL索引时也聊到过,在数据量不大不小(几百万左右)、查询又不是特别复杂的情况下,直接上ElasticSearch、Solr
等中间件,显得有点大材小用,此时全文索引就是这类搜索引擎的平替。不过相较于MySQL
,MongoDB
提供的全文索引,功能方面会更加强大。
创建的语法如下:
db.xiong_mao.createIndex({name: "text"}, {name:"ft_idx_name"});
这里对name
字段建立了一个全文索引,和创建普通索引的区别在于:在字段后面加了一个text
。
不过要注意,MongoDB
全文索引停用词、词干和词器的规则,默认为英语,想要更改,这里涉及到创建索引时的两个可选项:
- •
default_language
:指定全文索引停用词、词干和词器的规则,默认为english
; - •
language_override
:指定全文索引语言覆盖的范围,默认为language
;
不过注意,不管任何技术栈的全文索引,对中文的支持都不太友好,分词方面总会有点不完善,所以MongoDB
很鸡贼,全文索引直接不支持中文,当你试图通过default_language:"chinese"
去将语言改为中文时,会直接给你返回报错~
当然,正是由于MongoDB
的全文索引不支持中文,因此就算你给一个字符串字段,建立了全文索引后,也无法实现全文搜索,如下:
db.xiong_mao.find({$text: {$search: "熊"}});
这段语句的含义是:通过全文索引搜索含“熊”这个关键字的数据,在咱们前面给出的集合数据中,name
包含“熊”的数据有好几条,但这条语句执行之后的结果为null
。想要解决这个问题,必须要手动安装第三方的中文分词插件,如mmseg、jieba
等。
当然,如果你字段中的值是英文,这自然是支持的,例如:
// 先向集合中插入三个name为英文的文档
db.xiong_mao.insertMany([
{_id:21,name:"jack bear",age:1},
{_id:22,name:"coly bear",age:2},
{_id:23,name:"alan bear",age:3}
]);
// 再使用英文作为关键字进行全文搜索(多个关键字用空格分隔)
db.xiong_mao.find({$text:{$search:"jack coly"}});
// =============结果=============
[
{_id:22,name:'coly bear',age:2},
{_id:21,name:'jack bear',age:1}
]
结果很明显,全文索引对英文完全支持,不过关于全文索引更多的搜索方法,大家可自行查阅官方文档,或寻找相关资料,这里不再过多阐述。
3.2.7、空间索引
空间索引,这玩意儿很多人用不到,除非涉及到地图、出行类的业务,或者其他涉及到坐标的场景,毕竟这时才会存储经纬度,MongoDB
的空间索引,必须建立在类型为Point
的字段上,总共有三种空间索引:
- •
2D
:适用于平面上的二维几何数据; - •
2Dsphere
:适用于球面上的二维几何数据; - •
geoHaystack
:2D
索引的升级版,适用于平面的特定坐标数据(查询性能更高);
这里来演示一下,先创建一个名为“熊猫馆”的集合,并插入几条坐标数据:
db.panda_house.insertMany([
{_id:1,house_name:"熊猫高级会所",location:{type:"Point",coordinates:[-66.66,22.22]}},
{_id:2,house_name:"竹子高级会所",location:{type:"Point",coordinates:[-88.88,55.55]}},
{_id:3,house_name:"竹子爱熊猫会所",location:{type:"Point",coordinates:[-77.88,11.22]}}
]);
接着我们为其location
字段,创建一个2dsphere
空间索引:
db.panda_house.createIndex({location:"2dsphere"});
接着可以使用坐标来进行查询,例如查询某个坐标附近五公里内的熊猫馆:
db.panda_house.find(
// 基于location字段进行查询
{location:{
// $near用来实现坐标附近的数据检索,返回结果会按距离排序
$near:{
// $geometry操作符用于指定Geo对象(地理空间对象)
$geometry:{
type:"Point",coordinates:[-66.66,22.21]},
// $maxDistance限制了最大搜索距离为5000m(五公里)
$maxDistance:5000
}}
});
上述语句执行后,最终会把“熊猫高级会所”这条数据搜索出来,是不是和你点外卖时的搜索场景很像?
3.2.8、哈希索引
哈希索引是等值查询时最快的索引,在之前MySQL
篇章也提及过它,只不过MySQL-InnoDB
引擎中,不支持手动创建哈希索引,只能由InnoDB
运行时自动生成,即自适应哈希索引技术。反观MongoDB
中,默认使用的索引结构为B+Tree
,但它也支持手动创建哈希结构的索引,语法如下:
db.xiong_mao.createIndex({name:'hashed'});
我们只需要在创建索引时,在字段后显式指明hashed
即可,这样在做等值查询时,就会自动使用哈希索引。
不过注意,哈希索引只支持等值查询的场景,如果一个字段还需要参与范围查询、排序等场景,那么并不建议在该字段上建立哈希索引。同时,创建哈希索引的字段,其值必须具备分散性,如年龄、性别这类字段,显然并不适合,大量重复值会导致哈希冲突十分严重,像手机号、身份证号这类属性的字段,就特别适合建立哈希索引。
3.2.9、通配符索引
在前面提到过“内嵌文档”这个概念,这是指将另一个文档,以字段值的形式嵌入到一个文档中。
结合MongoDB
可以动态插入各种字段的特性,每个内嵌文档的字段,也可以灵活变化,例如前面给出的数据:
{_id:4, name:"黑熊", age:3, food:{name:"黄金竹", grade:"S"}},
{_id:5, name:"白熊", age:4, food:{name:"翠绿竹", grade:"B"}},
......
这些数据中都内嵌了一个food
文档,虽然现在插入的都是固定的name、grade
字段,但我们可以随时插入新的字段,例如:
db.xiong_mao.insertOne({
_id:99, name:"星熊", age: 1,
food: {name:"星光竹", grade:"S", quality_inspector: ["竹大","竹二"]}
});
这时新插入的文档,其food
字段又多了一个quality_inspector
质检员的属性,对于这种动态变化的字段,可不可以建立索引呢?答案是可以,MongoDB4.2
中引入了“通配符索引”来支持对未知或任意字段的查询操作,创建的语法如下:
db.xiong_mao.createIndex({"food.$**": 1});
这时再通过food
字段来进行查询,看看explain
执行计划:
db.xiong_mao.find({"food.grade":"S"}).explain();
通配符索引-explain
执行计划中很明显,通过food
字段作为查询条件时,用到了刚刚创建的通配符索引。
最后,如果你想观察一个索引到底有没有效果,可以对比有索引、没索引时的查询耗时,但咱们需要把索引删掉吗?这是不需要的,MongoDB
支持隐藏索引,可以把一个已有索引“藏”起来,相关命令如下:
// 创建隐藏索引
db.<集合名>.createIndex({<字段名>:<排序方式>}, {hidden: true});
// 隐藏已有索引
db.<集合名>.hideIndex({<字段名>:<排序方式>});
db.<集合名>.hideIndex("索引名称");
// 取消隐藏索引
db.<集合名>.unhideIndex({<字段名>:<排序方式>});
db.<集合名>.unhideIndex("索引名称");
OK,MongoDB
基于索引查询时,同样也支持索引覆盖,也就是需要返回的结果字段,在索引字段中有时,会直接返回索引键的值,并不会再次回表查询整个文档。
3.3、explain执行计划
在之前的《SQL优化篇》中,曾详细说到过MySQL
的explain
工具,通过该命令,能有效帮咱们分析语句的执行情况,而MongoDB
同样也提供了这个命令,在上面的索引阶段,也简单使用过,命令格式如下:
db.<collection>.find().explain(<verbose>);
explain
方法同样有三个模式可选,这里简单列出来:
- •
queryPlanner
:返回执行计划的详细信息,包括查询计划、集合信息、查询条件、最佳计划、查询方式、服务信息等(默认模式); - •
exectionStats
:列出最佳执行计划的执行情况和被拒绝的计划等信息(即语句最终执行的方案); - •
allPlansExecution
:选择并执行最佳执行计划,同时输出其他所有执行计划的信息;
一般排查find()
查询缓慢问题时,可以先指定第二个模式,查看最佳执行计划的信息;如果怀疑MongoDB
没选择好索引,则可以再指定第三个模式,查看其他执行计划,如果的确是因为走错了索引,这时你可以通过hint
强制指定要使用的索引,如下:
db.集合名.find(查询条件).hint(索引名);
OK,接着来了解一下explain
命令输出的信息含义,大家可以自行去mongosh
里执行一下explain
命令,会发现它输出了特别多的信息,咱们主要关注stage
这个值,这是最重要的字段,就类似于MySQL-explain
的type
字段,代表着本次语句的查询类型,该字段可能会出现以下值:
• COLLSCAN
:扫描整个集合进行查询;
• IXSCAN
:通过索引进行查询;
• COUNT_SCAN
:使用索引在进行count
操作;
• COUNTSCAN
:没使用索引在进行count
操作;
• FETCH
:根据索引键去磁盘拿具体的数据;
• SORT
:执行了sort
排序查询;
• LIMIT
:使用了limit
限制返回行数;
• SKIP
:使用了skip
跳过了某些数据;
• IDHACK
:通过_id
主键查询数据;
• SHARD_MERGE
:从多个分片中查询、合并数据;
• SHARDING_FILTER
:通过mongos
对分片集群执行查询操作;
• SUBPLA
:未使用索引的$or
查询;
• TEXT
:使用全文索引进行查询;
• PROJECTION
:本次查询指定了返回的结果集字段(投影查询);
这里咱们只需要带SCAN
后缀的,因为其他都属于命令执行的“阶段”,并不属于具体的类型,explain
会将一条语句执行的每个阶段,都详细列出来,每个阶段都会有stage
字段,我们要做的,就是确保每个阶段都能用上索引即可,如果某一阶段出现COLLSCAN
,在数据量较大的情况下,都有可能导致查询缓慢。
其次,咱们需要关心keysExamined、docsExamined
两个字段的值(exectionStats
模式下才能看到),前者代表扫描的索引键数量,后者代表扫描的文档数量,前者越大,代表索引字段值的离散性太差,后者的值越大,一般代表着没建立索引。
OK,这里暂时了解这么多,关于explain
其余的输出信息,很多跟集群有关系,为此,等后续把MongoDB
集群过了之后,有机会再详细讲述~