CN103810251B

CN103810251B - 一种文本提取方法及装置

Info

Publication number: CN103810251B
Application number: CN201410026939.5A
Authority: CN
Inventors: 卜湛; 伍之昂; 曹杰; 李秀怡; 刘英卓
Original assignee: Nanjing University of Finance and Economics
Current assignee: Nanjing University of Finance and Economics
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2017-05-10
Anticipated expiration: 2034-01-21
Also published as: CN103810251A

Abstract

本发明涉及一种文本提取方法，所述方法包括：步骤一、预处理给定的网页的超文本传输协议html源码，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；步骤二、提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性;步骤三、依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定。通过本发明实施例能够提高网页中文本块提取的准确度，提高搜索引擎的搜索效率和准确度。

Description

一种文本提取方法及装置

技术领域

本发明涉及互联网领域，具体涉及到一种在超文本传输协议源代码中进行文本提取的方法及装置。

背景技术

随着计算机与互联网技术的快速发展，越来越多的用户选择从互联网中获取信息，互联网上的丰富资源以及网络传输的便捷性，使得信息的采集和传播都大道理空前的水平。在各种信息获取方式中，网络搜索是较为常见的一种，各种搜索引擎目前已经成为用户上网不可少的辅助工具之一。

互联网上的信息大多以HTML、XHTML以及XML的网页为载体，但是Web页面总是包含一些用户并不是很关心的内容或者对用户需要搜索的内容无关的内容，例如一些广告链接、不相关的图片以及大量的导航链接，这些信息通常是围绕在主题信息周围。这些信息很难被计算机自动识别，大大增加了搜索引擎的索引文件的大小，用户很难找到所需的信息，降低了搜索的准确度和用户的体验，也很难实现智能网页内容抽取、网页自动分类、用户使用兴趣挖掘。

在搜索引擎领域，Web正文提取技术是近年来的研究热点，该技术将互联网中半结构化的HTML页面中隐藏的正文信息抽取出来，然后将其转化为结构化、语义更为清晰的信息呈现给用户。通常地，从网页的正文提取最好最准确的方式是通过模板提取，该技术基于特定类型的网页，归纳总结某种提取规则，创建包装器（wrapper），制作模板是一个繁琐的过程。由于，因为不同的网站，具有不同的Web页面的排版模式，这种情况下，依靠人工制作模板，难以满足需求。

因此，现有技术很难准确、高效的对HTML文件结构进行分析，提取与主题内容相关的元素。

发明内容

本发明的目的是是提供一种文本提取方法，以实现对HTML文件结构进行分析，提取与主题内容相关的元素的高效准确提取。

为实现上述目的，本发明提供了一种文本提取方法，所述方法包括：

步骤一、预处理给定的网页的超文本传输协议html源码，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；

步骤二、提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性;

步骤三、依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定。

依照本发明较佳实施例提供的文本提取方法，在所述步骤三之后，还包括：

步骤四、根据滑动窗口方法，对所述潜在正文快进行分割，获取次级潜在正文块。

依照本发明较佳实施例提供的文本提取方法，所述步骤四之后，还包括：

获取每个所述次级潜在正文块包含的信息量；

根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块。

依照本发明较佳实施例提供的文本提取方法，在根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块；之后，还包括：

对所述信息块进行合并，确定最终提取文本。

依照本发明较佳实施例提供的文本提取方法，所述M个属性包括：所述

文本行及其起始标签所包含的文本行数量Index；

所述文本行在所述Html源码中所包含的字节数TextLength；

所述文本行在所述网页中出现的字节数OutputTextLength；

所述文本行的相对密度Density，所述相对密度为所述文本行在所述网页中出现的字节数和在所述Html源码中出现的字节数的比值；

所述文本行包含的超链接数LinkNum；

所述文本行包含的图片超链接数和ImgNum。

依照本发明较佳实施例提供的文本提取方法，所述第一关联规则中包含X个衡量参数，所述衡量参数为：

（A.Middle,B.High’,C.High’,D.High,E.Low’,F.Low）；

其中，

(A.Middle)表示文本行是否出现在所述HTML源码的中间区域；

(B.High’)表示所述文本块的长度是否高于第一阈值；

(C.High’)表示所述述文本块的输出文本长度是否高于第二阈值；

(D.High)表示所述文本块是否具有高于第三阈值的文本密度；

（E.Low’）表示所述文本块中的超链接数目是否少于第四阈值；

(F.Low)表示所述文本块中的图片链接数目是否少于第五阈值。

依照本发明较佳实施例提供的文本提取方法，所述步骤四具体包括：

采用滑动窗口长度为Φ的一个滑动窗口从上到下扫描整个HTML源码；

在潜在正文块中，不存在连续的Φ-1非正文行时，将所述潜在正文块确定为所述次级潜在正文块。

依照本发明较佳实施例提供的文本提取方法，所述获取每个所述次级潜在正文块包含的信息量，具体包括：

本发明实施例还提供了一种文本提取装置，所述装置包括：

预处理模块，用于对给定的网页的超文本传输协议html源码进行预处理，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；

提取模块，用于提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性;

确定模块，用于依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定。

依照本发明较佳实施例提供的文本提取装置，其中，所述装置还包括：

滑窗提取模块，用于根据滑动窗口方法，对所述潜在正文快进行分割，获取次级潜在正文块。

本发明实施例提供的文本提取方法，能够通过对超文本传输协议中源码中提取到的文本块进行特征元素提取，并根据这些元素确定其中的潜在正文块，通过本发明实施例能够提高网页中文本块提取的准确度，提高搜索引擎的搜索效率和准确度。

附图说明

图1为本发明实施例提供的文本提供方法的流程图；

图2为本发明中关联规则建立原理图之一；

图3为本发明中关联规则建立原理图之二；

图4为本发明实施例提供的文本提供方法另一实施例的流程图；

图5为本发明中文本提取方法的实施状态参考图；

图6为本发明实施例提供的文本提供方法另一实施例的流程图；

图7为本发明实施例提供的文本提取装置的结构图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例提供了一种文本提取方法，该方法可以应用于Web智能信息检索、文档自动摘要、用户浏览体验等诸多领域，在通过本发明实施例提取出网页中的文本后，计算机可以基于提取出的文本，进行搜索、文档自动摘要等操作，特别是应用在搜索引擎中，提高搜索效率和准确度。

图1是本发明实施例提供的文本提取方法的流程图，该方法可以应用在互联网网站中的服务器中，例如搜索引擎服务器等，如图1所示本发明实施例提供的文本提取方法，包括：

101、预处理给定的网页的超文本传输协议html源码，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；

具体而言，由于网页的正文部分通常是出现在HTML源码的中间区域，并且，这部分HTML源码包含大量不含超链接和图片链接的文本。因此，本发明实施例可以首先对原始的HTML源码进行必要的预处理，然后将剩下的文本行存储在一个N行的字符串序列中，记为L＝{p₁,p₂,...,p_N}，以便于提取文本行的一些空间和内容特征来区别文本行的重要性。

所述的预处理技术，是现有技术方案中可以实现的，因此不多赘述。

102、提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性;

其中，所述的特征元素不仅包括文本行的在所述源码中的空间特征，还包括所述文本行在所述源码中的内容特征。

具体而言，在获取字符串序列之后，单从HTML源码中，我们很难提取网页的空间特征。因此，本实施例中将文本行p_i和文档<body>起始标签包含的所有文本行数量作为其空间特征，即文本行p_i的下标i。

文本行的内容特征对区别文本行的重要性至关重要。这些内容特征可以简称为文本行的属性，例如，所述文本行及其起始标签所包含的文本行数量Index、所述文本行在所述Html源码中所包含的字节数TextLength、所述文本行在所述网页中出现的字节数OutputTextLength、所述文本行的相对密度Density，所述相对密度为所述文本行在所述网页中出现的字节数和在所述Html源码中出现的字节数的比值、所述文本行包含的超链接数LinkNum、所述文本行包含的图片超链接数和ImgNum。

其中，文本行在网页中出现的字节数，可以通过统计包含在两个标签中的内容长度间接获取：

提取内容特征之后，组成包含M个属性的向量如下：

{Index,TextLength,OutputTextLength,Density,LinkNum,ImgNum}

M个属性的个数和具体内容可以根据实际需求进行设定，包括但不限定于上述的实施例中所举的例子。

103、依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所述第一关联规则由所述特征元素中的所述M个属性确定。

具体而言，在本实施例中，所述的第一关联规则是一种基于模糊关联规则的潜在正文行标记方法。所述第一关联规则中包含X个衡量参数，所述衡量参数为：

（A.Middle,B.High’,C.High’,D.High,E.Low’,F.Low）；

其中，(A.Middle)表示文本行是否出现在所述HTML源码的中间区域；(B.High’)表示所述文本块的长度是否高于第一阈值；(C.High’)表示所述述文本块的输出文本长度是否高于第二阈值；(D.High)表示所述文本块是否具有高于第三阈值的文本密度；（E.Low’）表示所述文本块中的超链接数目是否少于第四阈值；(F.Low)表示所述文本块中的图片链接数目是否少于第五阈值。其中每个阈值都可以根据实际需求进行调整。

在本实施例中，当所述字符串序列中的某个HTML文本行满足如下条件时，可以将该文本行视为潜在正文块。

1）出现在HTML源码的中间区域(A.Middle)；

2）具有较高的文本长度和输出文本长度(B.High’,C.High’)；

3）具有相对较高的文本密度(D.High)，并且具有很少的超链接和图片链接(E.Low’,F.Low)。

通过上述的实施例，可以判断网页中某个给定的文本行是否属于正文行。可以准确标记绝大多数正文行。

上述实施例的步骤103中的第一关联规则，可以通过以下的方式进行确定：

例如，手动从训练样本中提取若干正文行，分别从这些正文行提取空间和内容特征，这些特征简化标记为A(Index)、B(TextLength)、C(OutputTextLength)、D(Density)、E(LinkNum)和F(ImgNum)。该些特征与前述的实施例内涵相同，不多赘述。

特征A、D和F的模糊隶属度函数如图2所示，特征B、C和E的模糊隶属度函数如图3所示。其中MIN、Mean和MAX分别表示特征的在正文区域(tr)和非正文区域(non-tr)的加权最小/平均/最高观测值。其分别定义为：

item.MIN＝α·item.MIN^tr+(1-α)·item.MIN^non-tr （1）

item.Mean＝α·item.Mean^tr+(1-α)·item.Mean^non-tr （2）

item.MAX＝α·item.MAX^tr+(1-α)·item.MAX^non-tr （3）

上述定义中，α是一个权重，其用来平衡正文区域和非正文区域的重要性。这里，在一种可选的实施例中，设置α＝0.5。

由此，正文行模糊关联规则提取方法如下：

1）根据图2和图3定义的隶属度函数，将第i个正文行的第j个特征值v_ij，转化为相应的模糊集，表示成其中h_j表示特征I_j的模糊区域个数；f_ijl为特征值v_ij在特征I_j的第l个模糊区域R_jl上的隶属值。

2）对事务数据中每个模糊区域R_jl隶属度值求和，其中n为正文行的总数。

3）对每个特征，求其隶属度求和的最大值，假设max_R_j为特征I_j具有最大隶属度求和的模糊区域。该区域将在接下来的代表该特征I_j。所有具有最大隶属度求和的区域将被集中于一个集合L，即频繁1项集。

4）、将那些没有出现在一阶频繁项集L中的模糊区域去除。除此以外，对于剩下的模糊区域，如果其隶属度值f_ijl小于显著因子（默认为0.5），我们也将其去除。

5）、对事务项采用Apriori算法，寻找正文行的模糊关联规则。

最终建立的关联规则为（A.Middle,B.High’,C.High’,D.High,E.Low’,F.Low），即如果某个HTML文本行1）出现在HTML源码的中间区域(A.Middle)；2）具有较高的文本长度和输出文本长度(B.High’,C.High’)；3）具有相对较高的文本密度(D.High)，并且具有很少的超链接和图片链接(E.Low’,F.Low)。利用该模糊关联规则，对HTML源码中的所有正文行进行标记。图5（a）为样例网页每行文本的内容特征，根据模糊关联规则标记后的结果如图5（b）所示。

通过图1所示的实施例，可以判断某个给定的文本行是否属于正文行。这种初始的划分，尽管粗糙，却也能够准确标记绝大多数正文行。然而，如果网页中存在篇幅很长的版权申明、评论和一些其他非相关的描述内容，这些信息也很可能被标记为正文部分。同样，如果在广告图片周边存在篇幅很长的描述性信息或者长段的文本型广告，其也很可能被标记问正文信息。另外，如果网页中的正文行内容不是很长，也可能被模糊关联规则忽略为假阴性。

为了解决这些问题，在另一种实施例中，如图4所示，在步骤103之后，还可以包括：

步骤104，根据滑动窗口方法，对所述潜在正文快进行分割，获取次级潜在正文块。

在该实施例中，首先采用滑动窗口长度为Φ的一个滑动窗口从上到下扫描整个HTML源码；之后，在潜在正文块中，不存在连续的Φ-1非正文行时，将所述潜在正文块确定为所述次级潜在正文块。

具体的，在一种实施例中，利用一个滑动窗口从上到下扫描整个HTML源码（处于<body>标签之间源码）。B_k(start_k,end_k)表示第k个次级潜在正文块，其中start_k为该次级潜在正文块的起始位置，end_k为其结束位置。

当B_k(start_k,end_k)需要满足一下条件：

1）M_i＝FALSE,if start_k-Φ≤i≤start_k or end_k≤i≤end_k+Φ，其中Φ表示滑动窗口的长度，在本实施例中，Φ设置为5；

2）M_i＝TURE,if i＝start_k+1 or i＝end_k-1；3）

其中M_i和M_j都为TRUE，如果i＜o＜j。也就是说，在潜在正文块中，不存在连续的Φ-1非正文行。这样，很多前面正文行标记过程中的假阴性将被容忍。本方法的滑动窗口长度被设定为5时，样例中发现的次级潜在正文块如图5（c）所示。

通过上述的实施例，能够进一步提高文本提取的准确性，减少非相关内容带来的噪声。

如图6所示，在另一种实施例中，在步骤104之后，还包括：

步骤105，获取每个所述次级潜在正文块包含的信息量；

步骤106，根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块。

其中，步骤101～104与前述的实施例类似，不多赘述。

在本实施例中，定义Score函数来衡量每个正文块的信息量，即重要程度：

其中，p_i为次级潜在正文块中的第i个文本行p_i，，T_i为该文本行在所述Html源码中所包含的字节数TextLength，O_i为该文本行在所述网页中出现的字节数OutputTextLength,D_i为该文本行的相对密度Density，L_i为该文本行包含的超链接数LinkNum,I_i为该文本行包含的图片超链接数和ImgNum。

在计算这些|T_i|,…,|I_i|时，可以采用归一操作来确保所有的值介于[0,1]之间。如果某个正文块满足Score(B_k)＞1.5，其被认为是信息块。如图5（c）所示，样例仅仅包含一个潜在正文块。其Score分值为1.5807（大于1.5），所以其被认为是信息块。最终提取的正文区域包含从p₂₈₆到p₃₀₀所有文本行。

在根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块；之后，还包括：对所述信息块进行合并，确定最终提取文本。

通过上述的实施例能够在较低的时间和空间复杂度约束下，大幅度降低网页包含的噪声信息（如广告、导航、非相关链接信息等），实现网页内容的高效抽取。解决了传统网页正文抽取的效率和准确率的协调性问题，对Web智能信息检索、文档自动摘要、用户浏览体验等诸多领域具有重要的意义。

相应的，如图7所示，本发明实施例还提供了一种文本提取装置，该实施例可以是互联网平台中的搜索引擎服务器或者其他具备文献搜索、内容提取能功能的应用服务器，用于执行图1至图6所示的实施例提供的文本提取方法，所述装置包括：

预处理模块701，用于对给定的网页的超文本传输协议html源码进行预处理，以获取所述源码中的文本的字符串序列，所述字符串序列包含N个文本行；

提取模块702，用于提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性;

确定模块703，用于依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定。

在一种实施例中，所述装置还包括：

具体而言，该实施例提供的装置，可以执行前述的实施例提供的文本提取方法，可参考前述的实施例，不多赘述。

本发明实施例提供的文本提取装置，能够通过对超文本传输协议中源码中提取到的文本块进行特征元素提取，并根据这些元素确定其中的潜在正文块，通过本发明实施例能够提高网页中文本块提取的准确度，提高搜索引擎的搜索效率和准确度。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本提取方法，其特征在于，所述方法包括：

步骤二、提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性；

步骤三、依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定；

步骤四、根据滑动窗口方法，对所述潜在正文块进行分割，获取次级潜在正文块；

所述步骤四之后，还包括：

获取每个所述次级潜在正文块包含的信息量；

根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块；

其中，所述获取每个所述次级潜在正文块包含的信息量，具体包括：

S c o r e (B_{k}) = \frac{\underset{{Start}_{k} \leq i \leq {End}_{k}}{Σ} S c o r e (p_{i}) = | T_{i} | + | O_{i} | + | D_{i} | - | L_{i} | - | I_{i} |}{{End}_{k} - {Start}_{k} + 1}

其中，p_i为次级潜在正文块中的第i个文本行，T_i为第i个文本行在所述html源码中所包含的字节数TextLength，O_i为第i个文本行在所述网页中出现的字节数OutputTextLength,D_i为第i个文本行的相对密度Density，所述相对密度Density为所述文本行在所述网页中出现的字节数和在所述html源码中出现的字节数的比值，L_i为第i个文本行包含的超链接数LinkNum,I_i为该文本行包含的图片超链接数和ImgNum，B_k表示第k个次级潜在正文块，Start_k为该次级潜在正文块的起始位置，End_k为其结束位置,Score(B_k)表示正文块B_k包含的信息量。

2.如权利要求1所述的方法，其特征在于，在根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块；之后，还包括：

对所述信息块进行合并，确定最终提取文本。

3.如权利要求1所述的方法，其特征在于，所述M个属性包括：所述文本行及其起始标签所包含的文本行数量Index；

所述文本行在所述html源码中所包含的字节数TextLength；

所述文本行在所述网页中出现的字节数OutputTextLength；

所述文本行包含的超链接数LinkNum；

所述文本行包含的图片超链接数和ImgNum。

4.如权利要求3所述的方法，其特征在于，所述第一关联规则中包含X个衡量参数，所述衡量参数为：

(A.Middle,B.High’,C.High’,D.High,E.Low’,F.Low)；

其中，

(A.Middle)表示文本行是否出现在所述html源码的中间区域；

(B.High’)表示所述文本块的长度是否高于第一阈值；

(C.High’)表示所述文本块的输出文本长度是否高于第二阈值；

(D.High)表示所述文本块是否具有高于第三阈值的文本密度；

(E.Low’)表示所述文本块中的超链接数目是否少于第四阈值；

(F.Low)表示所述文本块中的图片链接数目是否少于第五阈值。

5.如权利要求1所述的方法，其特征在于，所述步骤四具体包括：

6.一种文本提取装置，其特征在于，包括：

提取模块，用于提取所述字符串序列中每个文本行的特征元素，所述特征元素包含M个属性；

确定模块，用于依据第一关联规则，确定所述字符串序列中的潜在正文行组成的潜在正文块，所示第一关联规则由所述特征元素中的所述M个属性确定；

滑窗提取模块，用于根据滑动窗口方法，对所述潜在正文块进行分割，获取次级潜在正文块；获取每个所述次级潜在正文块包含的信息量；根据所述次级潜在正文块的信息量，确定所述潜在正文块中的信息块；

所述获取每个所述次级潜在正文块包含的信息量，具体包括：

S c o r e (B_{k}) = \frac{\underset{{Start}_{k} \leq i \leq {End}_{k}}{Σ} S c o r e (p_{i}) = | T_{i} | + | O_{i} | + | D_{i} | - | L_{i} | - | I_{i} |}{{End}_{k} - {Start}_{k} + 1}