CN103268363B

CN103268363B - 一种基于弹性hog特征和ddtw匹配的中国书法图像检索方法

Info

Publication number: CN103268363B
Application number: CN201310234803.9A
Authority: CN
Inventors: 夏勇; 阳志波; 王宽全; 张盛平; 伯彭波
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2013-06-06
Filing date: 2013-06-06
Publication date: 2016-06-22
Anticipated expiration: 2033-06-06
Also published as: CN103268363A

Abstract

一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法，属于信息处理技术领域。所述方法步骤如下：针对中国书法图像，先进行预处理操作，以得到单个字符图像；采用弹性网格技术，根据图像文字的像素密度分布，将输入图像划分为不同大小的网格块；在每个网格块内计算HOG特征；将每个网格块内的HOG特征以重叠技术重构成整个字符图像的EHOG特征；将字符图像特征作为字符标引结果存入数据库；在检索时，对输入的字符图像提取EHOG特征，然后基于DDTW匹配算法，在标引数据库中进行匹配查找，基于一个特定的相似度阈值返回检索结果。本方法无需利用OCR，拥有较高的准确率、很好的鲁棒性，并且有方法简单、成本低廉等优点。

Description

一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法

技术领域

本发明属于信息处理技术领域，涉及一种中国书法图像的检索方法，尤其涉及一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法。

背景技术

中国书法是一种留传了3000年的写作艺术和宝贵的文化遗产，主要被收藏在博物馆和图书馆。他们中的大多数都具有很高的价值，但由于不能被随意的进行翻阅，所以不能被公众所熟知。为了便于查阅该类书法文档，许多机构提供了这些书法样本的扫描版本，如图1所示。因此，高效的索引和检索技术是不可或缺的。中国书法非常特殊，主要具有以下几个方面的特性：

1)变化：书法是用毛笔和墨水写的，从而导致其比用钢笔或铅笔写的字有更大的笔迹粗细变化。书法在不同的朝代有不同的写作风格，它们中的大多数现在已经不被采用了。

2)退化：书法样本常常由于墨水褪色、纸张污染和其他不利的自然因素而退化，以至于无法辨识。

3)形变：书法体现了书法家的个性，书法家往往故意以一种不寻常的方式书写文字，如飞白。

对于文档图像，一种传统的文字检索方法就是先对文档图像进行字符识别，然后基于识别的结果进行检索。但对于书法文档图像而言，由于书法文字的书写非常随意，并且还可能存在各种形式的图像退化，所以字符识别率很低，难以基于识别构建高效的检索系统。一种可行的方法就是不对字符图像进行显式的识别，而是直接从书法字符中提取特征，然后基于特征进行匹配。该方法可以免去繁琐且复杂的字符训练与识别过程，使得检索系统的构建简单且高效。该方法的两个关键技术就是如何提取有效特征及如何进行特征间的匹配。现有的针对手写汉字检索的特征提取方法并不能很好的直接应用于书法图像的检索中，且特征匹配方法一般都采用了DTW的动态匹配方法，但该方法性能也很有限。

发明内容

针对中国书法图像的检索问题，本发明提出了一种新的基于弹性网格和局部梯度直方图特征合成的特征提取方法，即EHOG特征；然后基于DDTW匹配方法对字符特征进行在线匹配。

本发明的基于弹性HOG特征和DDTW匹配的中国书法图像检索方法步骤如下：

(1)针对中国书法图像，先进行预处理操作，以得到单个字符图像；

(2)采用弹性网格技术，根据图像文字的像素密度分布，将输入图像划分为不同大小的网格块；

(3)在每个网格块内计算方向梯度直方图HOG特征；

(4)将每个网格块内的HOG特征进行串行连接就得到了整个字符图像的EHOG特征；

(5)将字符图像特征作为字符标引结果存入数据库；

(6)在检索时，对输入的字符图像提取EHOG特征，然后基于DDTW匹配算法，在标引数据库中进行匹配查找，基于一个特定的相似度阈值返回检索结果。

本发明采用导数动态时间规整(DDTW)算法进行文字定位，由于DDTW利用了匹配序列的形状特征，因此它能更好地应用在书法字检索的任务中，带来了更高的检索准确率。

本发明的一个显著特点就是针对中国书法图像，完全抛弃字符识别技术(OCR)，直接利用字符图像的特征，创新性地将弹性网格技术和传统的HOG特征结合，提出了更适合于中国书法汉字检索的一种新型特征--弹性局部方向梯度直方图(EHOG)，并且利用语音识别中比较常用的DDTW匹配算法来完成文字的检索。本发明提出的直接基于图像内容的检索方法，无需利用OCR，拥有较高的准确率、很好的鲁棒性，并且有方法简单、成本低廉等优点。

附图说明

图1为图像格式中国书法文档示例；

图2为EHOG特征提取流程图；

图3为方向为q(x，y)的双线性插值示意图(12个方向柱)；

图4为EHOG特征提取方法示例；

图5为以“之”作为查询字符的部分检索结果。

具体实施方式

具体实施方式一：本实施方式的基于弹性HOG特征和DDTW匹配的中国书法图像检索方法，步骤如下：

(1)针对中国书法图像，先进行去除人工印章、消除噪声、字符分割等预处理操作，以得到单个字符图像。

(2)采用弹性网格技术，根据图像文字的像素密度分布，将输入图像划分为不同大小的网格块。

(3)定义网格基元，即其尺寸大小为小于一个网格块单元的网格单元，最小的网格基元的尺寸大小为宽度和高度均为1个像素。网格基元的大小可以由用户自行设定。

(4)对每一个网格块单元，从中找到所有满足网格基元定义的网格，这些网格之间可以交叠。如图4所示，具体的查找方法为：从网格单元的左上角开始，先沿水平方向向右进行逐个像素的滑动，直到到达网格单元的边界，从而得到一系列的网格基元；然后回到左上角的位置，沿垂直方向向下滑动一个像素，接着又沿水平方向向右进行逐个像素的滑动，直到到达网格单元的边界，从而又得到一系列的网格基元；按照上面的步骤，直到到达网格块的下边界和右边界的交界处就停止滑动。将上述得到的网格基元按照先后顺序进行排列，对每个网格基元提取HOG特征，然后将所有网格基元的特征进行串行连接就构成了网格块的HOG特征描述。

(5)将所有网格块的HOG特征进行串行连接，就构成了该字符图像的特征描述。

(6)将字符图像特征作为字符标引结果存入数据库。

(7)在检索时，对输入的字符图像提取EHOG特征，然后基于DDTW匹配算法，在标引数据库中进行匹配查找，基于一个特定的相似度阈值返回检索结果。

(8)DDTW匹配的基本流程如下：

(a)假定检索的字符图像特征序列为Q＝q₁，q₂，…，q_l，…q_n，其特征序列长度为n，标引数据库中的某个字符图像特征序列为S＝s₁，s₂，L，s_j，L，s_m，其特征序列长度为m。

(b)由于检索输入的字符图像特征序列长度与标引数据库中的字符图像特征长度不一定是相等，这样会存在多种对应关系。假定某条对应的特征路径为W，则可以用下式来进行表示：

\{\begin{matrix} w_{k} = {(i, j)}_{k} \\ W = w_{1}, w_{2}, \cdot \cdot \cdot w_{k}, \cdot \cdot \cdot, w_{K} & \max (n, m) \leq K < n + m - 1 . \end{matrix}

(c)对于Q和S而言，我们定义匹配距离的大小为匹配成功与否的标准。基于DTW的匹配距离的定义如下：

D(ij)＝d(q_i，s_j)+min{D(i-1，j-1)，D(i-1，j)D(i，j-1)}

这里，d(q_is_j)＝(q_i-s_j)²，i，j分别表示的是Q和S的某一维。

在本发明中，我们使用d(q′_i，s_j)代替d(q_is_j)，其中

具体实施方式二：对中国书法图像进行标引之前，首先需先进行去除人工印章、图像二值化、消除噪声、字符分割等预处理操作，以得到单个字符图像。在标引阶段，对一个分割好的书法字符图像，首先提取EHOG特征，然后将该特征作为该字符特征的标引信息进行存储。在实际检索时，对用户输入的某个检索字图像，首先提取EHOG特征，然后基于DDTW匹配算法对标引数据库中的所有字符图像进行匹配查找。将标引数据库中所有图像匹配相似度大于某个特定阈值的字符图像作为检索结果返回给用户。该流程中的两个关键技术EHOG特征提取和DDTW动态匹配的具体流程及方法如下：

1、EHOG：

为了适应中国书法文字的特点，本发明提出了一个新的特征描述算子：EHOG，它是HOG特征描述算子的改进版本。图2给出了关于EHOG特征提取过程的流程图。G_x和G_y分别代表水平梯度和垂直梯度。

如图2所示，和原始的HOG不同是，本发明使用弹性网格化技术将预处理后的图像划分成非均匀的网格。弹性网格的优点是根据笔画强度将输入的字符图像分割为虚网格。由于存在多种类型的书法字，如位置、大小和倾斜度的变化，因此较之将输入图像分割为大小均匀的网格，弹性网格划分是更为合理的特征提取方法。这样，两个相同的字符相同的笔画，更可能有相同的顺序区域，从而也有类似的特征描述。弹性网格的划分方法如下：

1)、对输入图像中的每一个点p(i，j)，计算当前点到最近的黑点的城市街区距离c(i，j)。对于每一个点的加权点密度d(i，j)被定义为这里i，j表示图像中点的横纵坐标，假定图像宽度为I，高度为J，则i＝1，2，...，I，j＝1，2，...，J。

2)、将加权的点密度分别投影到水平方向和垂直方向。水平与垂直方向特征投影函数分别为

H (i) = Σ_{j = 1}^{J} d (i, j)

和

V (j) = Σ_{i = 1}^{I} d (i, j) .

3)、坐标映射关系如下：

\{\begin{matrix} x (i) = L \times Σ_{k = 1}^{i} H (i) / Σ_{k = 1}^{I} H (i) \\ y (j) = L \times Σ_{k = 1}^{j} V (j) / Σ_{k = 1}^{J} V (j) \end{matrix};

这里L表示拟生成的虚拟图像的尺寸大小，即长和宽均为L个像素。

基于上述变换，原始图像就对应到一个L×L的虚拟网格图像上，虚拟网格上按一个特定的统一尺度进行网格的划分对应到原图像就是一个非线性网格的划分效果。

HOG根据像素点的梯度值，统计网格内落在不同方向柱上的像素点的“得票数”(数量)，用以构成方向直方图。假设有图像I(x，y)，G_x和G_y分别代表水平梯度和垂直梯度，则有：

那么，我们就可以得到像素点(x，y)的梯度值m和方向θ：

m (x, y) = \sqrt{{G_{x}}^{2} + {G_{y}}^{2}} - - - (2)

和

q(x，y)＝R(G_x，G_y)(3)。

式(3)中，R表示取向量G_x、G_y之间的夹角。最后，为了减少混淆情况，将像素点的“得票数”对该点相邻的方向柱进行双线性插值。也就是说，每个像素点(x，y)都为其最近的两个方向柱共添加m(x，y)张票，如图3所示。其中，方向柱1的得票数为而方向柱0的得票数为这里T表示方向柱的个数。

方向柱的划分可以在0°到180°的区间上进行“无符号”划分，或者是在0°到360°的区间上进行“有符号”划分。在SIFT和HOG中，“无符号”划分比“有符号”划分的实验效果更好，这是因为其目标图像中前景和背景的对比度差异不带有区分信息。而在本发明的实验中，使用“有符号”的划分方式，因为在字符图像中，前景和背景一般不会混淆，带有比较强的区分性。假设有我们利用弹性网格将输入图像划分为M′N个网格，并有T个方向柱，那么我们就能得到一个有M创NT个方向柱的直方图。

本发明以网格基元为单位，进行特征提取，并将所有网格基元特征描述算子串行连接起来，作为网格块HOG特征描述算子。网格基元是由m′n个空间上相邻的网格所组成的，因此网格基元特征是一个m创nT维的向量。这些网格基元使用相互重叠一个网格的宽度或高度的方法(如图4所示，每个网格基元由2×2个网格格组成，于是对于每个字符图像，就能得到(7-2+1)×(7-2+1)个网格基元)。因此，对于每个字符图像，共划分(M-m+1)？(Nn+1)个网格基元。最终，得到一个维数为(M-m+1)？(Nn+1)创mn□T的EHOG特征描述算子。

2、DDTW

当书法图像的特征序列通过上述特征描述算子提取出来以后，则进入特征匹配阶段。图5给出了一个匹配结果示例。最为经典的匹配方法是DTW，但本发明采用了一种改进方法DDTW，实验结果表明该方法在书法图像检索中更有效。

DTW的基本原理：

假设有两个时间序列Q和S，它们的长度分别为n和m，有：

Q＝q₁，q₂，…，q_i，…q_n(4)

S＝s₁，s₂，L，s_j，L，s_m(5)

DTW构造了一个m′n的转换矩阵，(i，j)元素包含了点q_i和点s_j之间的距离d(q_is_j)(这里我们通常使用欧氏距离，即d(q_i，s_j)＝(q_i-s_j)²)，并且代表q_i和s_j之间的校准关系。校准路径W是由转换矩阵中若干个连续的元素构成，它在序列Q和S之间建立了一个映射关系。校准路径的定义如下：

\{\begin{matrix} w_{k} = {(i, j)}_{k} \\ W = w_{1}, w_{2}, \cdot \cdot \cdot w_{k}, \cdot \cdot \cdot, w_{K} & \max (n, m) \leq K < n + m - 1 \end{matrix} - - - (6)

其中W从w₁＝(1，1)开始，到w_k＝(n，m)结束。该路径的“代价”如下定义：

换句话说，DTW是基于动态规划(DP)的方式来确定其最佳校准路径：

D(i，j)＝d(q_i，s_j)+min{D(i-1，j-1)，D(i-1，j)，D(i，j-1)}(8)

虽然DTW在寻找相似序列方面取得了巨大的成功，但是它有时可能会产生非预期的结果。在我们的实验中，DTW通过校准X-轴(时间序列)来匹配Y-轴上的二维的字符图片。DTW可能会在这种情况下出现偏差：一个相同的字在出现多次，其中一个字的序列图像的某个“波谷”要比另一个字相对应的“波谷”要低，并且其中一个的上升速度比另一个要小。假设我们取序列Q和S中的两个点q_i和s_j，它们的值相同。但是q_i是处于一个上升趋势，而s_j是处在一个下降的趋势中，尽管我们直观地可以判断此时不应该将将该两点建立映射关系，然而DTW却会错误的认为该两点是完全对应的。为了解决这个问题，我们使用了DTW的改进算法——DDTW。DDTW不直接取序列的值作为匹配依据，而是考虑序列的走势。通过对Y-轴上的序列进行一次求导，就可以获得该序列的走势。于是在DDTW中，使用d(q′_i，s_j)代替d(q_i，s_j)，其中这样，校准方式就不是简单地基于序列值，而是序列的形状特征(斜率和极值)。

为了验证本发明方法的有效性，著名书法家“赵孟频”的书法作品被扫描为图像格式，一共有17幅字画。进行字符分割后，该数据集共包含14,302个字。实验结果表明，本发明方法在该数据集上能达到90％以上的单字检索平均准确率(meanAveragePrecision)。进一步，本发明提出的EHOG特征相比传统的HOG特征，检索平均准确率能提高8％以上；基于EHOG特征，利用DDTW进行匹配比利用DTW进行匹配的检索平均准确率能提高1％以上。

Claims

1.一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法，其特征在于所述方法包括如下步骤：

（1）针对中国书法图像，先进行预处理操作，以得到单个字符图像；

（2）采用弹性网格技术，根据图像文字的像素密度分布，将输入图像划分为不同大小的网格块；

（3）在每个网格块内计算HOG特征，具体步骤如下：

定义网格基元，即其尺寸大小为小于一个网格块单元的网格单元；

对每一个网格块单元，按照以下方法从中找到所有满足网格基元定义的网格：a、从网格单元的左上角开始，先沿水平方向向右进行逐个像素的滑动，直到到达网格单元的边界，从而得到一系列的网格基元；b、然后回到左上角的位置，沿垂直方向向下滑动一个像素，接着又沿水平方向向右进行逐个像素的滑动，直到到达网格单元的边界，从而又得到一系列的网格基元；c、按照上面的步骤，直到到达网格块的下边界和右边界的交界处停止滑动；将上述得到的网格基元按照先后顺序进行排列，对每个网格基元提取HOG特征，然后将所有网格基元的特征进行串行连接就构成了网格块的HOG特征描述；

（4）将每个网格块内的HOG特征进行串行连接，得到整个字符图像的EHOG特征；

（5）将字符图像特征作为字符标引结果存入数据库；

（6）在检索时，对输入的字符图像提取EHOG特征，然后基于DDTW匹配算法，在标引数据库中进行匹配查找，基于一个特定的相似度阈值返回检索结果。

2.根据权利要求1所述的基于弹性HOG特征和DDTW匹配的中国书法图像检索方法，其特征在于所述EHOG特征的提取步骤为：将所有网格块的HOG特征进行串行连接，就构成了该字符图像的EHOG特征描述。