ES的底层使用Apache鼎鼎大名的Lucence开源框架实现,严格来说lucence只属于一个工具包,提供了简单的接口用于实现全文检索!
lucence有什么用呢?
想想大家使用天猫购物的时候,假设输入一个床,整个页面能显示木板床,水床,甚至有床垫,床单等购物信息出现,就是因为所有这些与床有关的信息录入时,以“床”这个词作为分词,建立索引,从而能得到各种与床有关的店铺,商品等等!
如果用mysql,怎么实现呢,一大段商品信息描述,使用like’%床%’来查询,本来就不走索引,字段还很大,别说亿级别的数据了,几百万就能把一台mysql服务器搞死!
那么ES怎么做的呢?跟mysql的查找方式相反,mysql是从文档中提取关键字,而使用ES可以先提取出关键字(使用特定的分词器),然后关键字出现的位置,建立倒排索引,明确的记录关键词所在的位置,举例截图如下:
图中的箭头所示的一列数据叫做Posting List,就是存放关键字对应的位置;这样在查询羽毛球的时候,能迅速返回证件号1的数据,查年龄20的时候,能迅速返回证件号2,3对应的数据;
图中的Term就是Term Dictionary(字典),ES对字段Term Dictionary进行了排序,然后使用二分法查找数据,查找到的效率为O(logN),为了避免磁盘IO的低性能,ES可以把字典放在了内存中来提升查询性能,那么问题来了,如果是亿万级的数据,年龄还好,但是爱好可能也是亿万级别的量,这时候内存可能就要爆了,于是就有了Term Index,就是将Term Dictionary再进行一次索引,比如说羽毛球这个词,建立一个索引树,使用羽字就可以定位到羽字开头的所有Term Dictionary,然后在使用二分法查找到需要的关键词,这样就可以只把Term Index放入内存,从而提升整个ES系统的处理能力;
上面就是ES大概的原理,当然远不止于此,作为大数据领域中文档处理的佼佼者,ES大量使用在日志记录与分析,全文检索,数据统计等等情景中!
以上是ES简单的原理说明,对于分词器选择,字典树压缩,如何使用等更多的东西没有描述,以后找机会会详细分享一次,请关注。。。
mysql时间格式,mysql 计算列 效率,mysql 修改 user 重启,mysql数据库变慢,datagrip和MySQL,mysql 截取日期函数