太阳城集团

  • / 14
  • 下载费用:30 金币  

海量网络文本与非文本图像分类方法.pdf

摘要
申请专利号:

太阳城集团CN201610541508.1

申请日:

2016.07.12

公开号:

太阳城集团CN106257496A

公开日:

2016.12.28

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06K 9/62申请日:20160712|||公开
IPC分类号: G06K9/62 主分类号: G06K9/62
申请人: 华中科技大学
发明人: 白翔; 石葆光; 章成全
地址: 430074 湖北省武汉市洪山区珞喻路1037号
优先权:
专利代理机构: 华中科技大学专利中心 42201 代理人: 梁鹏
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201610541508.1

授权太阳城集团号:

|||

法律状态太阳城集团日:

太阳城集团2017.01.25|||2016.12.28

法律状态类型:

实质审查的生效|||公开

摘要

本发明公开了一种海量网络文本与非文本图像分类方法,首先构建多尺度空间划分网络,然后对训练图像集中的图像,获取图像的多尺度图像块标签太阳城集团,并根据构建的多尺度空间划分网络,利用标注好的训练数据集训练多尺度空间划分网络的网络参数,然后利用构建的多尺度空间划分网络以及训练得到的网络参数,对待测试的大规模网络图像进行分类,最终获取图像的分类结果,对图像是否为文本图像做出判决,并获取文本区域在图像中的大致位置。本发明方法文本与非文本图像分类准确率高,且有很高的分类效率。

权利要求书

1.一种海量网络文本与非文本图像分类方法,其特征在于,所述方法包含下述步骤:
(1)多尺度空间划分网络构建,包括:(1.1)定义多层次特征图生成子网络网络结构;
(1.2)定义多尺度图像块特征生成子网络网络结构;(1.3)定义文本与非文本图像块分类子
网络网络结构;(1.4)构建多尺度空间划分网络;
(2)多尺度空间划分网络训练:(2.1)对训练图像集中的每一张图像,获取多尺度图像
块标签太阳城集团;(2.2)根据所述多尺度图像块标签太阳城集团训练得到多尺度空间划分网络的参数;
(3)文本与非文本图像分类:根据多尺度空间划分网络的参数,利用所述多尺度空间划
分网络对待识别文本或者非文本图像进行分类。
2.根据权利要求1所述的海量网络文本与非文本图像分类方法,其特征在于,所述步骤
(1.1)具体为:
(1.1.1)定义图像特征提取网络结构:所述的图像特征提取网络结构包括五个卷积阶
段,其中第一个和第二个卷积阶段的网络结构均为两个卷积层和一个最大池化层,最后三
个卷积阶段的网络结构均为三个卷积层和一个最大池化层,对输入图像I,经过该图像特征
提取网络得到各个卷积阶段的输出特征图,记为其中表示
第s个卷积阶段的输出的特征图序列,Ms,m表示第m个特征图,MNums为预设的第s个卷积阶段
输出特征图的个数;
(1.1.2)定义多层次特征图生成子网络网络结构:对步骤(1.1.1)中所述的图像特征提
取网络的后三个卷积阶段之后分别接一个反卷积层,将这三个卷积阶段的输出中
的所有特征图的尺度全部缩放到Wm×Hm大小,所得尺度缩放后的特征图序列记为
其中Wm和Hm分别表示预设的特征图尺度缩放后特征图宽度和高度,
表示第s个卷积阶段的输出特征图序列FMs中的每个特征图经过尺度缩放
后得到的特征图序列,Ms′,m表示FMs中第m个特征图经过尺度缩放后得到的特征图,MNums为
预设的第s个卷积阶段输出特征图的个数,之后将FMS′中的所有特征图进行堆叠,得到多层
次特征图,记为其
中M″c表示图像的多层次特征图的c个特征图,MNum=MNum3+MNum4+MNum5,表示多层次特征
图中特征图个数。
3.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述
步骤(1.2)具体为:
(1.2.1)单一尺度图像块空间划分:对步骤(1.1)所述的多层次特征图生成子网络得到
的图像多层次特征图F,将多层次特征图划分为尺度为的图像块,划分方法表示
为:
<mrow> <msup> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
将多层次特征图划分为SP=sp×sp个图像块,对于划分的一个图像块Fij,在输入图像I
中对应的图像块Iij计算方法为:
<mrow> <msup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中Fij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块,x和y分别表
示像素点在图像块中的横坐标和纵坐标,Wm和Hm分别表示多层次特征图的宽度和高度,W和
H分别表示输入图像I的宽度和高度,sp为预设的图像块划分尺度;
(1.2.2)多尺度图像块空间划分:预设多个不同的图像块划分尺度,记为
对其中的每个划分尺度spk,按照步骤(1.2.1)所述的方法,对多层次特征
图F进行图像块空间划分,得到SPk=spk×spk个图像块,通过多尺度图像块空间划分,得到
的所有图像块序列为PS,且其中Patchn表示第n个图像块,
表示图像块总数;
(1.2.3)多尺度图像块特征提取:对步骤(1.2.2)中对多层次特征图F进行多尺度图像
块空间划分得到的图像块序列PS中的每一个图像块Patch,将图像块按行和列分别分割为
Nsp份,则每个图像块Patch分割为SPNum=Nsp×Nsp个子图像块,记为
其中SubPnsp表示第nsp个子图像块,然后利用一个最大池化层将每
个子图像块转换为该子图像块对应的特征向量,则得到每个图像块Patch对应的子图像块
特征向量序列,记为其中SubVnsp表示第nsp个子图像块对应的特征
向量,特征向量长度即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum,将图
像块中所有子图像块对应的特征向量进行拼接,得到图像块对应的特征向量,记为V=
[SubV1,...,SubVSPNum],则图像块特征向量长度为MNum×SPNum,对多尺度图像块空间划分
得到的每一个图像块按上述方法提取图像块的特征向量,得到所有图像块的特征向量集
合,记为其中Vn表示第n个图像块对应的特征向量,PNum表示图像块总数;
4.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述
步骤(1.3)具体为:在步骤(1.2)所述的多尺度图像块特征生成子网络之后,接一个由三个
全连接层构成的文本与非文本图像块分类网络,对步骤(1.2)中所得的多尺度图像块特征
向量集合VS中的每一个图像块特征向量V,通过该文本与非文本图像块分类网络进行分类
判决,得到的输出Pro表示该图像块为文本图像块的概率,若Pro>tP,则该图像块的分类结
果记为1,否则分类结果为0,由此得到所有图像块的分类结果,记为
其中Predn表示第n个图像块的分类结果,且Predn∈{0,1},若Predn=0则表示该图像块为非
文本图像块,Predn=1则表示该图像块为文本图像块。
5.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述
步骤(1.4)具体为:将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、
多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级
联在一起,构建一个完整的多尺度空间划分网络。
6.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述
步骤(2.1)具体为:
对训练图像集中的每一张图像Itr,用人工标注的方式获取图像中文本区
域的位置,记为其中T表示训练图像的个数,bbq表示图像中第q个文本区域
的包围盒,Q为图像中文本区域的个数,然后按照步骤(1.2.1)所述的方法,根据步骤
(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺度,对图像
Itr进行多尺度图像块空间划分,对于空间划分之后的每一个图像块PatchTr,记图像块的
面积为SPatchTr,图像块的高度为HPatchTr,图像块中文本区域的面积为SText,图像块中
文本区域的高度为HText,若该图像块满足条件:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>S</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>S</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>S</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>H</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>H</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>H</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
则标注该图像块为文本区域,对应的标签太阳城集团为1,否则标注该图像块为非文本区域,
对应的标签太阳城集团为0,其中tS为预设的图像块中文本区域占整个图像块面积比的阈值,tH为
预设的图像块中文本区域的高度与图像块高度比的阈值,记多尺度图像块标签太阳城集团为
其中lbll表示第l个图像块的标签太阳城集团,PNum表示多尺度空间划分后图像
块的个数;
7.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述
步骤(2.2)具体为:
利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的多尺度图像块
标签太阳城集团利用反向传导的方法训练步骤(1)中构建的多尺度空间划分网
络,其中,损失函数计算方法为:
<mrow> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>P</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>pro</mi> <mi>l</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>pro</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,lbll表示第l个图像块的标签太阳城集团,PNum表示多尺度空间划分后图像块的个数,
prol表示第l个图像块分类结果为文本图像块的概率,为多尺度空间划分网络的输出,训练
所得的多尺度空间划分网络参数记为θ;
8.根据权利要求1或2所述的海量网络文本与非文本图像分类方法,其特征在于,所述
步骤(3)具体为:对测试图像Ite,首先按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中预
设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多尺
度图像块空间划分,记空间划分之后得到的所有图像块的集合为
然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训练得到的多尺度空间划
分网络的参数θ,得到测试图像的分类判决结果其中PredTer表示
测试图像中第r个图像块的预测结果,PNum表示多尺度图像块空间划分后的图像块个数,
SubPS中所有预测结果为1的图像块集合TextPS即为输入图像Ite中所有文本图像块集合,
由此得到图像中文本区域的大致位置以及文本区域的尺度太阳城集团,如果TextPS不为空,则该
测试图像的分类结果为文本图像,否则测试图像的分类结果为非文本图像。

说明书

海量网络文本与非文本图像分类方法

技术领域

本发明属于计算机视觉技术领域,更具体地,涉及一种海量网络文本与非文本图
像分类方法。

背景技术

随着电视、互联网的飞速发展,人类社会已经逐渐迈入了太阳城集团时代,今后,人类的
经济生活将以太阳城集团的占有、配置、生产、使用为主。而随着太阳城集团时代的到来,越来越多的图像
视频数据以各式各样的途径传播,而这些数据包含大量的有用太阳城集团,如何从这些海量的数
据中提取出这些有用的太阳城集团,将是太阳城集团时代人类能否快速高效地获取更多收益的关键。当
前互联网中提供了海量的视频、图像数据,而这些海量的网络视频帧与网络图像中的文本
作为一种极其重要的太阳城集团来源,可以被用来辅助于多种实际应用,包括图像检索、人机交互
和驾驶导航系统等等。

现有的获取图像中的文本太阳城集团的方法主要包含文本检测和文本识别两部分,因此
这两个图像文本自动阅读的主要技术的研究一直是计算机领域备受关注的课题。然而,在
海量传播的数据中,只有极少部分的图像包含文本,而现有的文本检测和文本识别方法受
限于提取图像中文本太阳城集团的速度,很难直接用于提取这些数据中的有用文本太阳城集团,因此关
于文本与非文本图像分类算法的研究具备较高的现实意义和使用价值。

发明内容

本发明的目的在于提供一种海量网络文本与非文本图像分类方法,该方法文本与
非文本图像分类过程简单易行,且分类准确率高。

为实现上述目的,本发明提供了一种海量网络文本与非文本图像分类方法,包括
如下步骤:

(1)多尺度空间划分网络构建,所述的多尺度空间划分网络包括多层次特征图生
成子网络、多尺度图像块特征生成子网络以及文本与非文本图像块分类子网络:

(1.1)定义多层次特征图生成子网络网络结构;

(1.1.1)定义图像特征提取网络结构;

具体地,所述的图像特征提取网络结构包括五个卷积阶段,其中第一个和第二个
卷积阶段的网络结构均为两个卷积层和一个最大池化层,最后三个卷积阶段的网络结构均
为三个卷积层和一个最大池化层,对输入图像I,经过该图像特征提取网络可以得到各个卷
积阶段的输出特征图,记为其中表示第s个卷积阶段的输
出的特征图序列,Ms,m表示第m个特征图,MNums为预设的第s个卷积阶段输出特征图的个数;

(1.1.2)定义多层次特征图生成子网络网络结构;

具体地,对步骤(1.1.1)中所述的图像特征提取网络的第三个、第四个和第五个网
络阶段之后分别接一个反卷积层,将这三个卷积阶段的输出中的所有特征图的尺
度全部缩放到Wm×Hm大小,所得尺度缩放后的特征图序列记为其中Wm和
Hm分别表示预设的特征图尺度缩放后特征图的宽度和高度,表示第s个卷
积阶段的输出特征图序列FMs中的每个特征图经过尺度缩放后得到的特征图序列,M′s,m表
示FMs中第m个特征图经过尺度缩放后得到的特征图,MNums为预设的第s个卷积阶段输出特
征图的个数,之后将FMS′中的所有特征图进行堆叠,得到多层次特征图,记为
其中M″c表示图像的
多层次特征图的c个特征图,MNum=MNum3+MNum4+MNum5,表示多层次特征图中特征图个数;

(1.2)定义多尺度图像块特征生成子网络网络结构;

(1.2.1)单一尺度图像块空间划分;

具体地,对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图
F,将多层次特征图划分为尺度为的图像块,划分方法表示为:

<mrow> <msup> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

这样,可以将多层次特征图划分为SP=sp×sp个图像块,对于划分的一个图像块
Fij,在输入图像I中对应的图像块Iij计算方法为:

<mrow> <msup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中Fij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块,x和y分
别表示像素点在图像块中的横坐标和纵坐标,Wm和Hm分别表示多层次特征图的宽度和高
度,W和H分别表示输入图像I的宽度和高度,sp为预设的图像块划分尺度;

(1.2.2)多尺度图像块空间划分;

具体地,预设多个不同的图像块划分尺度,记为对其中的每个划
分尺度spk,按照步骤(1.2.1)所述的方法,对多层次特征图F进行图像块空间划分,可以得
到SPk=spk×spk个图像块,通过多尺度图像块空间划分,得到的所有图像块序列为PS,且
其中Patchn表示第n个图像块,表示图像块总数;

(1.2.3)多尺度图像块特征提取;

具体地,对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图
像块序列PS中的每一个图像块Patch,将图像块按行和列分别分割为Nsp份,则每个图像块
Patch可以分割为SPNum=Nsp×Nsp个子图像块,记为其中SubPnsp表
示第nsp个子图像块,然后利用一个最大池化层将每个子图像块转换为该子图像块对应的
特征向量,则可以得到每个图像块Patch对应的子图像块特征向量序列,记为
其中SubVnsp表示第nsp个子图像块对应的特征向量,特征向量长度
即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum,将图像块中所有子图像
块对应的特征向量进行拼接,可以得到图像块对应的特征向量,记为V=[SubV1,...,
SubVSPNum],则图像块特征向量长度为MNum×SPNum,对多尺度图像块空间划分得到的每一个
图像块按上述方法提取图像块的特征向量,得到所有图像块的特征向量集合,记为
其中Vn表示第n个图像块对应的特征向量,PNum表示图像块总数;

(1.3)定义文本与非文本图像块分类子网络网络结构;

具体地,在步骤(1.2)所述的多尺度图像块特征生成子网络之后,接一个由三个全
连接层构成的文本与非文本图像块分类网络,对步骤(1.2)中所得的多尺度图像块特征向
量集合VS中的每一个图像块特征向量V,通过该文本与非文本图像块分类网络进行分类判
决,得到的输出Pro表示该图像块为文本图像块的概率,若Pro>tP,则该图像块的分类结果
记为1,否则分类结果为0,由此可以得到所有图像块的分类结果,记为
其中Predn表示第n个图像块的分类结果,且Predn∈{0,1},若Predn=
0则表示该图像块为非文本图像块,Predn=1则表示该图像块为文本图像块;

(1.4)构建多尺度空间划分网络;

具体地,将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、
多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级
联在一起,即为一个完整的多尺度空间划分网络;

(2)多尺度空间划分网络训练:

(2.1)对训练图像集中的每一张图像,获取多尺度图像块标签太阳城集团;

具体地,对训练图像集中的每一张图像Itr,用人工标注的方式获取
图像中文本区域的位置,记为其中T表示训练图像的个数,bbq表示图像中
第q个文本区域的包围盒,Q为图像中文本区域的个数,然后按照步骤(1.2.1)所述的方法,
根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺
度,对图像Itr进行多尺度图像块空间划分,对于空间划分之后的每一个图像块PatchTr,记
图像块的面积为SPatchTr,图像块的高度为HPatchTr,图像块中文本区域的面积为SText,
图像块中文本区域的高度为HText,若该图像块满足条件:

<mfenced open = '{' close = ''> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>S</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>S</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>S</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>H</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>H</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>H</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

则标注该图像块为文本区域,对应的标签太阳城集团为1,否则标注该图像块为非文本区
域,对应的标签太阳城集团为0,其中tS为预设的图像块中文本区域占整个图像块面积比的阈值,
tH为预设的图像块中文本区域的高度与图像块高度比的阈值,记多尺度图像块标签太阳城集团为
其中lbll表示第l个图像块的标签太阳城集团,PNum表示多尺度空间划分后图像
块的个数;

(2.2)训练得到多尺度空间划分网络的参数;

具体地,利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的
多尺度图像块标签太阳城集团利用反向传导的方法训练步骤(1)中构建的多尺度
空间划分网络,其中,损失函数计算方法为:

<mrow> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>P</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>pro</mi> <mi>l</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mi>log</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>pro</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中,lbll表示第l个图像块的标签太阳城集团,PNum表示多尺度空间划分后图像块的个
数,prol表示第l个图像块分类结果为文本图像块的概率,为多尺度空间划分网络的输出,
训练所得的多尺度空间划分网络参数记为θ;

(3)文本与非文本图像分类:

具体地,对测试图像Ite,首先按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中
预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多
尺度图像块空间划分,记空间划分之后得到的所有图像块的集合为
然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中
训练得到的多尺度空间划分网络的参数θ,得到测试图像的分类判决结果
其中PredTer表示测试图像中第r个图像块的预测结果,PNum表示
多尺度图像块空间划分后的图像块个数,SubPS中所有预测结果为1的图像块集合TextPS即
为输入图像Ite中所有文本图像块集合,由此可以得到图像中文本区域的大致位置以及文
本区域的尺度太阳城集团,如果TextPS不为空,则该测试图像的分类结果为文本图像,否则测试图
像的分类结果为非文本图像。

通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:

(1)现有的海量网络文本与非文本图像分类方法通常首先需要提取图像中候选的
类文字区域,然后通过分类等方法对这些候选区域进行过滤,最后通过对候选区域的分类
判决来完成对图像是否为文本图像的预测;本发明方法首先构建了一个端到端、可训练的
多尺度空间划分网络,通过这个网络就能实现以图像为输入,并对图像进行图像块级别的
预测,最终得到图像的分类判别结果以及文本在图像中的大致位置,从而可以端到端的做
到文本与非文本图像的判别;因此本发明方法实现更加简洁;

(2)由于图像中通常存在非常多的类文字区域,而现有的海量网络文本与非文本
图像分类方法提取图像中的候选类文字区域,并采用聚类、分类等方法对所有的候选区域
进行过滤分类,得到最终的分类结果,因此这类方法处理速度非常慢,且这类算法很容易受
到光照等环境因素的影响;本发明方法采用对光照等外界条件有很强的鲁棒性的卷积神经
网络的方法,通过人工对图像进行空间划分,并对每个划分的图像块进行分类,避免了鲁棒
性较差的类文字区域提取过程;因此本发明方法具有很高的分类准确率以及非常高效的处
理速度,且具有很强的鲁棒性;

(3)本发明太阳城集团海量网络文本与非文本图像的判别结果,不仅包含图像是否为文
本图像的太阳城集团,还能够指出文字在图片中的大致位置和尺度太阳城集团,为后续文字检测环节大
大缩小文字搜索范围。

附图说明

图1是本发明方法构建的多尺度空间划分网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要
彼此之间未构成冲突就可以相互组合。

本发明海量网络文本与非文本图像分类方法包括以下步骤:

(1)多尺度空间划分网络构建,所述的多尺度空间划分网络包括多层次特征图生
成子网络、多尺度图像块特征生成子网络以及文本与非文本图像块分类子网络:

(1.1)定义多层次特征图生成子网络网络结构;

(1.1.1)定义图像特征提取网络结构;

具体地,所述的图像特征提取网络结构包括五个卷积阶段,其中第一个和第二个
卷积阶段的网络结构均为两个卷积层和一个最大池化层,最后三个卷积阶段的网络结构均
为三个卷积层和一个最大池化层,对输入图像I,经过该图像特征提取网络可以得到各个卷
积阶段的输出特征图,记为其中表示第s个卷积阶段的输
出的特征图序列,Ms,m表示第m个特征图,MNums为预设的第s个卷积阶段输出特征图的个数;

(1.1.2)定义多层次特征图生成子网络网络结构;

具体地,对步骤(1.1.1)中所述的图像特征提取网络的第三个、第四个和第五个网
络阶段之后分别接一个反卷积层,将这三个卷积阶段的输出中的所有特征图的尺
度全部缩放到Wm×Hm大小,所得尺度缩放后的特征图序列记为其中Wm和
Hm分别表示预设的特征图尺度缩放后特征图的宽度和高度,表示第s个卷
积阶段的输出特征图序列FMs中的每个特征图经过尺度缩放后得到的特征图序列,M′s,m表
示FMs中第m个特征图经过尺度缩放后得到的特征图,MNums为预设的第s个卷积阶段输出特
征图的个数,之后将FMS′中的所有特征图进行堆叠,得到多层次特征图,记为
其中M″c表示图像的
多层次特征图的c个特征图,MNum=MNum3+MNum4+MNum5,表示多层次特征图中特征图个数;

(1.2)定义多尺度图像块特征生成子网络网络结构;

(1.2.1)单一尺度图像块空间划分;

具体地,对步骤(1.1)所述的多层次特征图生成子网络得到的图像多层次特征图
F,将多层次特征图划分为尺度为的图像块,划分方法表示为:

<mrow> <msup> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>W</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mrow> <mi>H</mi> <mi>m</mi> </mrow> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

这样,可以将多层次特征图划分为SP=sp×sp个图像块,对于划分的一个图像块
Fij,在输入图像I中对应的图像块Iij计算方法为:

<mrow> <msup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>x</mi> <mo>&lt;</mo> <mfrac> <mi>W</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>y</mi> <mo>&lt;</mo> <mfrac> <mi>H</mi> <mrow> <mi>s</mi> <mi>p</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中Fij表示将多层次特征图进行图像块划分后在第i列、第j行的图像块,x和y分
别表示像素点在图像块中的横坐标和纵坐标,Wm和Hm分别表示多层次特征图的宽度和高
度,W和H分别表示输入图像I的宽度和高度,sp为预设的图像块划分尺度;

(1.2.2)多尺度图像块空间划分;

具体地,预设多个不同的图像块划分尺度,记为对其中的每个划
分尺度spk,按照步骤(1.2.1)所述的方法,对多层次特征图F进行图像块空间划分,可以得
到SPk=spk×spk个图像块,通过多尺度图像块空间划分,得到的所有图像块序列为PS,且
其中Patchn表示第n个图像块,表示图像块总数;

(1.2.3)多尺度图像块特征提取;

具体地,对步骤(1.2.2)中对多层次特征图F进行多尺度图像块空间划分得到的图
像块序列PS中的每一个图像块Patch,将图像块按行和列分别分割为Nsp份,则每个图像块
Patch可以分割为SPNum=Nsp×Nsp个子图像块,记为其中SubPnsp表
示第nsp个子图像块,然后利用一个最大池化层将每个子图像块转换为该子图像块对应的
特征向量,则可以得到每个图像块Patch对应的子图像块特征向量序列,记为
其中SubVnsp表示第nsp个子图像块对应的特征向量,特征向量长度
即为所述步骤(1.1.2)中所得的多层次特征图中特征图个数MNum,将图像块中所有子图像
块对应的特征向量进行拼接,可以得到图像块对应的特征向量,记为V=[SubV1,...,
SubVSPNum],则图像块特征向量长度为MNum×SPNum,对多尺度图像块空间划分得到的每一个
图像块按上述方法提取图像块的特征向量,得到所有图像块的特征向量集合,记为
其中Vn表示第n个图像块对应的特征向量,PNum表示图像块总数;

(1.3)定义文本与非文本图像块分类子网络网络结构;

具体地,在步骤(1.2)所述的多尺度图像块特征生成子网络网络之后,接一个由三
个全连接层构成的文本与非文本图像块分类网络,对步骤(1.2)中所得的多尺度图像块特
征向量集合VS中的每一个图像块特征向量V,通过该文本与非文本图像块分类网络进行分
类判决,得到的输出Pro表示该图像块为文本图像块的概率,若Pro>tP,则该图像块的分类
结果记为1,否则分类结果为0,由此可以得到所有图像块的分类结果,记为
其中Predn表示第n个图像块的分类结果,且Predn∈{0,1},若Predn=
0则表示该图像块为非文本图像块,Predn=1则表示该图像块为文本图像块;

(1.4)构建多尺度空间划分网络;

具体地,将步骤(1.1)至步骤(1.3)中定义的多层次特征图生成子网络网络结构、
多尺度图像块特征生成子网络网络结构以及文本与非文本图像块分类子网络网络结构级
联在一起,如图1所示,即为一个完整的多尺度空间划分网络;

(2)多尺度空间划分网络训练:

(2.1)对训练图像集中的每一张图像,获取多尺度图像块标签太阳城集团;

具体地,对训练图像集中的每一张图像Itr,用人工标注的方式获取
图像中文本区域的位置,记为其中T表示训练图像的个数,bbq表示图像中
第q个文本区域的包围盒,Q为图像中文本区域的个数,然后按照步骤(1.2.1)所述的方法,
根据步骤(1.2.2)中预设的多个不同的图像块划分尺度中的每个划分尺
度,对图像Itr进行多尺度图像块空间划分,对于空间划分之后的每一个图像块PatchTr,记
图像块的面积为SPatchTr,图像块的高度为HPatchTr,图像块中文本区域的面积为SText,
图像块中文本区域的高度为HText,若该图像块满足条件:

<mfenced open = '{' close = ''> <mtable> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>S</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>S</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>S</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mi>H</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> </mrow> <mrow> <mi>H</mi> <mi>P</mi> <mi>a</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> <mi>T</mi> <mi>r</mi> </mrow> </mfrac> <mo>&gt;</mo> <mi>t</mi> <mi>H</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

则标注该图像块为文本区域,对应的标签太阳城集团为1,否则标注该图像块为非文本区
域,对应的标签太阳城集团为0,其中tS为预设的图像块中文本区域占整个图像块面积比的阈值,
tH为预设的图像块中文本区域的高度与图像块高度比的阈值,记多尺度图像块标签太阳城集团为
其中lbll表示第l个图像块的标签太阳城集团,PNum表示多尺度空间划分后图像
块的个数;

(2.2)训练得到多尺度空间划分网络的参数;

具体地,利用标注好的训练图像集χ以及标注好的训练图像集中每张训练图像的
多尺度图像块标签太阳城集团利用反向传导的方法训练步骤(1)中构建的多尺度
空间划分网络,其中,损失函数计算方法为:

<mrow> <mi>L</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>P</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </munderover> <mrow> <mo>(</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>pro</mi> <mi>l</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>lbl</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mi>log</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>pro</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中,lbll表示第l个图像块的标签太阳城集团,PNum表示多尺度空间划分后图像块的个
数,prol表示第l个图像块分类结果为文本图像块的概率,为多尺度空间划分网络的输出,
训练所得的多尺度空间划分网络参数记为θ;

(3)文本与非文本图像分类:

具体地,对测试图像Ite,首先按照步骤(1.2.1)所述的方法,根据步骤(1.2.2)中
预设的多个不同的图像块划分尺度中的每个划分尺度,对图像Itr进行多
尺度图像块空间划分,记空间划分之后得到的所有图像块的集合为
然后利用步骤(1)中构建的多尺度空间划分网络以及步骤(2)中训
练得到的多尺度空间划分网络的参数θ,得到测试图像的分类判决结果
其中PredTer表示测试图像中第r个图像块的预测结果,PNum表示
多尺度图像块空间划分后的图像块个数,SubPS中所有预测结果为1的图像块集合TextPS即
为输入图像Ite中所有文本图像块集合,由此可以得到图像中文本区域的大致位置以及文
本区域的尺度太阳城集团,如果TextPS不为空,则该测试图像的分类结果为文本图像,否则测试图
像的分类结果为非文本图像。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以
限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含
在本发明的保护范围之内。

关 键 词:
海量 网络 文本 图像 分类 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:海量网络文本与非文本图像分类方法.pdf
链接地址:http://zh228.com/p-6100834.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');