知乎:哈希树(HashTree)查找算法
CSDN : 哈希树(HashTree)查找算法
百度文库:哈希树(HashTree)查找算法
哈希树(HashTree)
依据哈希函数查找算法要求,将数据集合中的数据记录按照一定的规律组织起来,形成多叉树结构。该数据结构可以被称为哈希树(HashTree)。
在这里假定所有的数据记录均以(key, value)的形式进行存储。其中key代表数据记录的关键字,value代表具体的数据。对于给定的数值k,查找的目的就是在数据集合中找到key = k的数据记录,或者返回数据集合中不存在这样的key 。为了绘图和讨论的简便性,后面仅讨论和数值关键字key部分。
为了后续算法说明的简便性,这里选择哈希函数的除数序列M=\{2,3,5\} 。(其中)M(n)表示除数序列数组的数值。例如:M(1)=2 ,M(2)=3 ,M(3)=5。具体程序设计时,可以按照本文之前推荐的方法选择除数序列。
组织结构
哈希树数据结构是一种典型的多叉树结构。
但是哈希树数据结构与常见的多叉树又有显著的不同。下图是一个典型的哈希树数据结构:
如图2所示,该哈希树数据结构是基于除数序列构建的。
- Root为哈希树的根(深蓝色节点)。
- R0和R1为第一层节点(灰色节点)共有2个,对应除数序列中的第一个数 M(1)=2。
- R00、R01、R02、R10、R11、R12为第二层节点(黄色节点)共6个。其中R00、R01和R02是属于R0的子节点,R10、R11和R12是属于R1的子节点。R0和R1下分别有3个子节点,对应除数序列中的第二个数M(2)=3。
- 后续的R00、R01、R02、R10、R11和R12节点下又分别有5个子节点(白色节点),对应除数序列中的第三个数M(3)=5。
读者由本例可以推知,每一层节点下的子节点个数与除数序列的关系。哈希树数据结构的实际情况,与指定的除数序列有着紧密的联系。
插入数据
(步骤1)假设当前哈希树数据结构中没有任何数据记录,现在新插入一条数据记录 (key=25) 。
- 查询除数序列可知,根节点下应该有M(1)=2个节点。根据前面所描述得算法,将关键字数值取余可得 1\,(25\, mod \,2)。由于根节点下目前没有任何子节点,因此先生成一个子节点R1,并将数据记录放置至R1节点中。
(步骤2)在此次操作完成之后,继续新插入一条数据记录 (key=12) 。
- 查询除数序列可知,根节点下应该有M(1)=2个节点。根据前面所描述得算法,将关键字数值取余可得0\,(12\, mod \, 2) 。由于根节点下目前没有任何子节点,因此先生成一个子节点R0,并将数据记录放置至R0节点中。
(步骤3)在此次操作完成之后,继续新插入一条数据记录 (key=13) 。
- 查询除数序列可知,根节点下应该有M(1)=2个节点。根据前面所描述得算法,将关键字数值取余可得1\,(13\, mod \, 2) 。调取节点R1的状态,发现该节点已经存储了一条数据记录。因此需要继续查询R1下的子节点寻找空出的存储位置。
- 查询除数序列可知,R1节点下应该有M(2)=3个节点。将关键字数值取余可得 )1\,(13\, mod \, 3) 。由于R1节点下的R11节点并未生成,可以先生成R11节点,并将数据记录放置其中。
按照上述的方法将关键字序列key=\{25,12,13,30,128,77,1,9,18,1024\}依次添加到哈希树数据结构中,最后可以得到哈希树数据结构如下图所示:
这种数据插入方法的一个好处就是,可以优先占据接近根节点的子节点,降低单次操作中访问的次数,同时使树结构均衡化。按照这种数据插入方法,此哈希树数据结构中,最多可以存储的数据记录数量应大于该哈希算法的总体分辨能力。
查找数据
在图9所示的哈希树状态下,进行数据查找。
- 查找的数据记录 (key=128) 。
- 查询除数序列可知,根节点下应该有个节点。根据前面所描述得算法,将关键字数值取余可得0\,(128\,mod\,2)。调取节点R0的状态,发现该节点已经存储了一条数据记录,而且关键字不等于128。因此需要继续查询R0下的子节点。
- 查询除数序列可知,R0节点下应该有个节点。将关键字数值取余可得2\,(128\,mod\,3)。由于R0节点下的R02节点节点已经存储了一条数据记录,且关键字等于128,因此该节点即为所查找的节点。
- 程序操作到此即可结束。
- 查找的数据记录 (key=31) 。
- 查询除数序列可知,根节点下应该有个节点。根据前面所描述得算法,将关键字数值取余可得1\,(31\,mod\,2) 。调取节点R1的状态,发现该节点已经存储了一条数据记录,而且关键字不等于31。因此需要继续查询R1下的子节点。
- 查询除数序列可知,R1节点下应该有个节点。将关键字数值取余可得1\,(31\,mod\,3)。由于R1节点下的R11节点节点已经存储了一条数据记录,且关键字不等于31。因此需要继续查询R11节点下的子节点。
- 查询除数序列可知,R11节点下应该有个节点。将关键字数值取余可得1\, (31\,mod\,5)。调取节点R111的状态,发现该节点已经存储了一条记录,且关键字不等于31。
- 由于节点R111是最底层节点,因此哈希树中不存在关键字所对应的数据记录。程序到此即可结束。
删除数据
在图9所示的哈希树状态下,进行数据删除。显然删除数据的前提是能找到数据记录。因此在查找算法上,两者具有一致性,这里就不再赘述。
- 删除 (key=13) 的数据记录。
- 找到所对应的数据节点R11,并将数据节点R11的状态设置为无数据状态。
- 程序到此即可返回。
- 删除 (key=18) 的数据记录。
- 找到所对应的数据节点R003,并将数据节点R11的状态设置为无数据状态。
- 程序到此即可返回。
经过两次删除操作后,哈希树的当前状态如下图所示:
在经过删除操作后,会出现末端空节点R003和中间空节点R11。考虑到充分利用存储空间的实际要求(避免哈希树的膨胀),可以对末端节点进行”释放”处理。对于中间空节点,可以考虑将最末端的节点挪动到该层上(形成末端空节点的,则需要释放)。当然也可以放置不管,后续的插入数据可以直接利用这些空节点。无论如何操作都是为了保证树结构的紧凑性,减少单次操作中的访问次数。
哈希树的特点
(1)结构简单
哈希树的结构非常简单,每层节点的子节点个数由除数序列指定,子节点可以随时动态创建。哈希树结构是动态的,不需要长时间的初始化过程,没有必要为不存在的关键字节点提前分配存储空间。
(2)易于实现
从上面所讲述的操作过程来说是相当简单的。程序上特别容易实现,比起B^−树更容易理解和实现。
(3)查找迅速
从前面的分析可以看出,时间复杂度是O(n)(其中n为除数数列的长度)。实际应用中,平均查找长度应该小于n
推荐适用数列:
M^*=\{256,255,253,251,247,241,\\ 239,233,229,227,223,217,211,199,197,193,\\ 191,181,179,173,167,163,157,151,149,139,\\137,131,127,113,109,107\}
共计32个数。这些数相互互素,它们的乘积约为2.372×10^{72}(2^{256}约为1.158×10^{77})。而且单个元素的数值用一个无符号字节(8bit)可以表达。
以推荐的除数序列M^*为例。对于无符号4字节(即32bit)整数的,预估时间复杂度是O(5)(256×255×253×251×247>2^{32}),平均查找查找长度要小于5。
(4)易于调整
从前面的删除操作可以看出,对哈希树的平衡操作十分简单:主要在于调整空节点。将最末端节点向前挪动至当前空节点,并释放末端空节点。
(5)非排序性
哈希树不支持整体排序,没有整体顺序特性。
不过哈希树可以支持部分排序,只需要在插入数据时将较大(或者较小)数据逐节点交换至末端节点即可。不过这种部分排序性,目前尚未找到实际用途,与其他支持排序的数据结构相比也没有什么优势。
拓展阅读
CSDN : 查找算法
CSDN : 哈希树 (HashTree)
CSDN : 查找——图文翔解HashTree(哈希树)
CNBlogs : 查找——图文翔解HashTree(哈希树)