- 2019年7月10日-12日,,上海攬境展覽主辦的2019年藍(lán)鯨國(guó)際標(biāo)簽展、包裝展...[詳情]
2019年藍(lán)鯨標(biāo)簽展_藍(lán)鯨軟包裝展_藍(lán)鯨
- 今日排行
- 本周排行
- 本月排行
- 膠印油墨
- 膠印材料
- 絲印材料
印刷體文字的識(shí)別研究方法分類介紹
2010-12-06 15:17 來(lái)源:中國(guó)中部印刷網(wǎng) 責(zé)編:江佳
- 摘要:
- 識(shí)別方法是整個(gè)系統(tǒng)的核心,。用于漢字識(shí)別的模式識(shí)別方法可以大致分為結(jié)構(gòu)模式識(shí)別、統(tǒng)計(jì)模式識(shí)別及兩者的結(jié)合,。下面分別進(jìn)行介紹,。
【CPP114】訊:識(shí)別方法是整個(gè)系統(tǒng)的核心,。用于漢字識(shí)別的模式識(shí)別方法可以大致分為結(jié)構(gòu)模式識(shí)別、統(tǒng)計(jì)模式識(shí)別及兩者的結(jié)合,。下面分別進(jìn)行介紹,。
結(jié)構(gòu)模式識(shí)別
漢字是一種特殊的模式,其結(jié)構(gòu)雖然比較復(fù)雜,,但具有相當(dāng)嚴(yán)格的規(guī)律性,。換言之,漢字圖形含有豐富的結(jié)構(gòu)信息,,可以設(shè)法提取含有這種信息的結(jié)構(gòu)特征及其組字規(guī)律,,作為識(shí)別漢字的依據(jù),這就是結(jié)構(gòu)模式識(shí)別,。
結(jié)構(gòu)模式識(shí)別是早期漢字識(shí)別研究的主要方法,。其主要出發(fā)點(diǎn)是漢字的組成結(jié)構(gòu)。從漢字的構(gòu)成上講,,漢字是由筆劃(點(diǎn)橫豎撇捺等),、偏旁部首構(gòu)成的,;還可以認(rèn)為漢字是由更小的結(jié)構(gòu)基元構(gòu)成的。由這些結(jié)構(gòu)基元及其相互關(guān)系完全可以精確地對(duì)漢字加以描述,,就像一篇文章由單字,、詞、短語(yǔ)和句子按語(yǔ)法規(guī)律所組成一樣,。所以這種方法也叫句法模式識(shí)別,。識(shí)別時(shí),利用上述結(jié)構(gòu)信息及句法分析的方法進(jìn)行識(shí)別,,類似一個(gè)邏輯推理器,。
用這種方法來(lái)描述漢字字形結(jié)構(gòu)在理論上是比較恰當(dāng)?shù)模渲饕獌?yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng),,區(qū)分相似字能力強(qiáng),;但是,在實(shí)際應(yīng)用中,,面臨的主要問題是抗干擾能力差,,因?yàn)樵趯?shí)際得到的文本圖象中存在著各種干擾,如傾斜,,扭曲,,斷裂,粘連,,紙張上的污點(diǎn),,對(duì)比度差等等。這些因素直接影響到結(jié)構(gòu)基元的提取,,假如結(jié)構(gòu)基元不能準(zhǔn)確地得到,,后面的推理過程就成了無(wú)源之水。此外結(jié)構(gòu)模式識(shí)別的描述比較復(fù)雜,,匹配過程的復(fù)雜度因而也較高,。所以在印刷體漢字識(shí)別領(lǐng)域中,純結(jié)構(gòu)模式識(shí)別方法已經(jīng)逐漸衰落,,句法識(shí)別的方法正日益受到挑戰(zhàn),。
統(tǒng)計(jì)模式識(shí)別
統(tǒng)計(jì)決策論發(fā)展較早,理論也較成熟,。其要點(diǎn)是提取待識(shí)別模式的的一組統(tǒng)計(jì)特征,,然后按照一定準(zhǔn)則所確定的決策函數(shù)進(jìn)行分類判決。
漢字的統(tǒng)計(jì)模式識(shí)別是將字符點(diǎn)陣看作一個(gè)整體,,其所用的特征是從這個(gè)整體上經(jīng)過大量的統(tǒng)計(jì)而得到的,。統(tǒng)計(jì)特征的特點(diǎn)是抗干擾性強(qiáng),匹配與分類的算法簡(jiǎn)單,易于實(shí)現(xiàn),。不足之處在于細(xì)分能力較弱,,區(qū)分相似字的能力差一些。常見的統(tǒng)計(jì)模式識(shí)別方法有:
(1) 模板匹配,。模板匹配并不需要特征提取過程,。字符的圖象直接作為特征,與字典中的模板相比,,相似度最高的模板類即為識(shí)別結(jié)果,。這種方法簡(jiǎn)單易行,可以并行處理,;但是一個(gè)模板只能識(shí)別同樣大小,、同種字體的字符,對(duì)于傾斜,、筆劃變粗變細(xì)均無(wú)良好的適應(yīng)能力。
(2)利用變換特征的方法,。對(duì)字符圖象進(jìn)行二進(jìn)制變換(如Walsh, Hardama變換)或更復(fù)雜的變換(如Karhunen-Loeve, Fourier,Cosine,,Slant變換等),變換后的特征的維數(shù)大大降低,。但是這些變換不是旋轉(zhuǎn)不變的,,因此對(duì)于傾斜變形的字符的識(shí)別會(huì)有較大的偏差。二進(jìn)制變換的計(jì)算雖然簡(jiǎn)單,,但變換后的特征沒有明顯的物理意義,。K-L變換雖然從最小均方誤差角度來(lái)說(shuō)是最佳的,但是運(yùn)算量太大,,難以實(shí)用,。總之,,變換特征的運(yùn)算復(fù)雜度較高,。
(3)投影直方圖法。利用字符圖象在水平及垂直方向的投影作為特征,。該方法對(duì)傾斜旋轉(zhuǎn)非常敏感,,細(xì)分能力差。
(4)幾何矩(Geometric Moment)特征,。M. K. Hu提出利用矩不變量作為特征的想法,,引起了研究矩的熱潮。研究人員又確定了數(shù)十個(gè)移不變,、比例不變的矩,。我們都希望找到穩(wěn)定可靠的、對(duì)各種干擾適應(yīng)能力很強(qiáng)的特征,在幾何矩方面的研究正反映了這一愿望,。以上所涉及到的幾何矩均在線性變換下保持不變,。但在實(shí)際環(huán)境中,很難保證線性變換這一前提條件,。
(5)Spline曲線近似與傅立葉描繪子(Fourier Descriptor),。兩種方法都是針對(duì)字符圖象輪廓的。Spline曲線近似是在輪廓上找到曲率大的折點(diǎn),,利用Spline曲線來(lái)近似相鄰折點(diǎn)之間的輪廓線,。而傅立葉描繪子則是利用傅立葉函數(shù)模擬封閉的輪廓線,將傅立葉函數(shù)的各個(gè)系數(shù)作為特征的,。前者對(duì)于旋轉(zhuǎn)很敏感,。后者對(duì)于輪廓線不封閉的字符圖象不適用,因此很難用于筆劃斷裂的字符的識(shí)別,。
(6)筆劃密度特征,。筆劃密度的描述有許多種,這里采用如下定義:字符圖象某一特定范圍的筆劃密度是在該范圍內(nèi),,以固定掃描次數(shù)沿水平,、垂直或?qū)蔷方向掃描時(shí)的穿透次數(shù)。這種特征描述了漢字的各部分筆劃的疏密程度,,提供了比較完整的信息,。在圖象質(zhì)量可以保證的情況下,這種特征相當(dāng)穩(wěn)定,。在脫機(jī)手寫體的識(shí)別中也經(jīng)常用到這種特征,。但是在字符內(nèi)部筆劃粘連時(shí)誤差較大。
(7)外圍特征,。漢字的輪廓包含了豐富的特征,,即使在字符內(nèi)部筆劃粘連的情況下,輪廓部分的信息也還是比較完整的,。這種特征非常適合于作為粗分類的特征,。
(8)基于微結(jié)構(gòu)特征的方法。這種方法的出發(fā)點(diǎn)在于,,漢字是由筆劃組成的,,而筆劃是由一定方向,一定位置關(guān)系與長(zhǎng)寬比的矩形段組成的,。這些矩形段則稱為微結(jié)構(gòu),。利用微結(jié)構(gòu)及微結(jié)構(gòu)之間的關(guān)系組成的特征對(duì)漢字進(jìn)行識(shí)別,尤其是對(duì)于多體漢字的識(shí)別,,獲得了良好的效果,。其不足之處是,,在內(nèi)部筆劃粘連時(shí),微結(jié)構(gòu)的提取會(huì)遇到困難,。
結(jié)構(gòu)模式識(shí)別
漢字是一種特殊的模式,其結(jié)構(gòu)雖然比較復(fù)雜,,但具有相當(dāng)嚴(yán)格的規(guī)律性,。換言之,漢字圖形含有豐富的結(jié)構(gòu)信息,,可以設(shè)法提取含有這種信息的結(jié)構(gòu)特征及其組字規(guī)律,,作為識(shí)別漢字的依據(jù),這就是結(jié)構(gòu)模式識(shí)別,。
結(jié)構(gòu)模式識(shí)別是早期漢字識(shí)別研究的主要方法,。其主要出發(fā)點(diǎn)是漢字的組成結(jié)構(gòu)。從漢字的構(gòu)成上講,,漢字是由筆劃(點(diǎn)橫豎撇捺等),、偏旁部首構(gòu)成的,;還可以認(rèn)為漢字是由更小的結(jié)構(gòu)基元構(gòu)成的。由這些結(jié)構(gòu)基元及其相互關(guān)系完全可以精確地對(duì)漢字加以描述,,就像一篇文章由單字,、詞、短語(yǔ)和句子按語(yǔ)法規(guī)律所組成一樣,。所以這種方法也叫句法模式識(shí)別,。識(shí)別時(shí),利用上述結(jié)構(gòu)信息及句法分析的方法進(jìn)行識(shí)別,,類似一個(gè)邏輯推理器,。
用這種方法來(lái)描述漢字字形結(jié)構(gòu)在理論上是比較恰當(dāng)?shù)模渲饕獌?yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng),,區(qū)分相似字能力強(qiáng),;但是,在實(shí)際應(yīng)用中,,面臨的主要問題是抗干擾能力差,,因?yàn)樵趯?shí)際得到的文本圖象中存在著各種干擾,如傾斜,,扭曲,,斷裂,粘連,,紙張上的污點(diǎn),,對(duì)比度差等等。這些因素直接影響到結(jié)構(gòu)基元的提取,,假如結(jié)構(gòu)基元不能準(zhǔn)確地得到,,后面的推理過程就成了無(wú)源之水。此外結(jié)構(gòu)模式識(shí)別的描述比較復(fù)雜,,匹配過程的復(fù)雜度因而也較高,。所以在印刷體漢字識(shí)別領(lǐng)域中,純結(jié)構(gòu)模式識(shí)別方法已經(jīng)逐漸衰落,,句法識(shí)別的方法正日益受到挑戰(zhàn),。
統(tǒng)計(jì)模式識(shí)別
統(tǒng)計(jì)決策論發(fā)展較早,理論也較成熟,。其要點(diǎn)是提取待識(shí)別模式的的一組統(tǒng)計(jì)特征,,然后按照一定準(zhǔn)則所確定的決策函數(shù)進(jìn)行分類判決。
漢字的統(tǒng)計(jì)模式識(shí)別是將字符點(diǎn)陣看作一個(gè)整體,,其所用的特征是從這個(gè)整體上經(jīng)過大量的統(tǒng)計(jì)而得到的,。統(tǒng)計(jì)特征的特點(diǎn)是抗干擾性強(qiáng),匹配與分類的算法簡(jiǎn)單,易于實(shí)現(xiàn),。不足之處在于細(xì)分能力較弱,,區(qū)分相似字的能力差一些。常見的統(tǒng)計(jì)模式識(shí)別方法有:
(1) 模板匹配,。模板匹配并不需要特征提取過程,。字符的圖象直接作為特征,與字典中的模板相比,,相似度最高的模板類即為識(shí)別結(jié)果,。這種方法簡(jiǎn)單易行,可以并行處理,;但是一個(gè)模板只能識(shí)別同樣大小,、同種字體的字符,對(duì)于傾斜,、筆劃變粗變細(xì)均無(wú)良好的適應(yīng)能力。
(2)利用變換特征的方法,。對(duì)字符圖象進(jìn)行二進(jìn)制變換(如Walsh, Hardama變換)或更復(fù)雜的變換(如Karhunen-Loeve, Fourier,Cosine,,Slant變換等),變換后的特征的維數(shù)大大降低,。但是這些變換不是旋轉(zhuǎn)不變的,,因此對(duì)于傾斜變形的字符的識(shí)別會(huì)有較大的偏差。二進(jìn)制變換的計(jì)算雖然簡(jiǎn)單,,但變換后的特征沒有明顯的物理意義,。K-L變換雖然從最小均方誤差角度來(lái)說(shuō)是最佳的,但是運(yùn)算量太大,,難以實(shí)用,。總之,,變換特征的運(yùn)算復(fù)雜度較高,。
(3)投影直方圖法。利用字符圖象在水平及垂直方向的投影作為特征,。該方法對(duì)傾斜旋轉(zhuǎn)非常敏感,,細(xì)分能力差。
(4)幾何矩(Geometric Moment)特征,。M. K. Hu提出利用矩不變量作為特征的想法,,引起了研究矩的熱潮。研究人員又確定了數(shù)十個(gè)移不變,、比例不變的矩,。我們都希望找到穩(wěn)定可靠的、對(duì)各種干擾適應(yīng)能力很強(qiáng)的特征,在幾何矩方面的研究正反映了這一愿望,。以上所涉及到的幾何矩均在線性變換下保持不變,。但在實(shí)際環(huán)境中,很難保證線性變換這一前提條件,。
(5)Spline曲線近似與傅立葉描繪子(Fourier Descriptor),。兩種方法都是針對(duì)字符圖象輪廓的。Spline曲線近似是在輪廓上找到曲率大的折點(diǎn),,利用Spline曲線來(lái)近似相鄰折點(diǎn)之間的輪廓線,。而傅立葉描繪子則是利用傅立葉函數(shù)模擬封閉的輪廓線,將傅立葉函數(shù)的各個(gè)系數(shù)作為特征的,。前者對(duì)于旋轉(zhuǎn)很敏感,。后者對(duì)于輪廓線不封閉的字符圖象不適用,因此很難用于筆劃斷裂的字符的識(shí)別,。
(6)筆劃密度特征,。筆劃密度的描述有許多種,這里采用如下定義:字符圖象某一特定范圍的筆劃密度是在該范圍內(nèi),,以固定掃描次數(shù)沿水平,、垂直或?qū)蔷方向掃描時(shí)的穿透次數(shù)。這種特征描述了漢字的各部分筆劃的疏密程度,,提供了比較完整的信息,。在圖象質(zhì)量可以保證的情況下,這種特征相當(dāng)穩(wěn)定,。在脫機(jī)手寫體的識(shí)別中也經(jīng)常用到這種特征,。但是在字符內(nèi)部筆劃粘連時(shí)誤差較大。
(7)外圍特征,。漢字的輪廓包含了豐富的特征,,即使在字符內(nèi)部筆劃粘連的情況下,輪廓部分的信息也還是比較完整的,。這種特征非常適合于作為粗分類的特征,。
(8)基于微結(jié)構(gòu)特征的方法。這種方法的出發(fā)點(diǎn)在于,,漢字是由筆劃組成的,,而筆劃是由一定方向,一定位置關(guān)系與長(zhǎng)寬比的矩形段組成的,。這些矩形段則稱為微結(jié)構(gòu),。利用微結(jié)構(gòu)及微結(jié)構(gòu)之間的關(guān)系組成的特征對(duì)漢字進(jìn)行識(shí)別,尤其是對(duì)于多體漢字的識(shí)別,,獲得了良好的效果,。其不足之處是,,在內(nèi)部筆劃粘連時(shí),微結(jié)構(gòu)的提取會(huì)遇到困難,。
- 關(guān)于我們|聯(lián)系方式|誠(chéng)聘英才|幫助中心|意見反饋|版權(quán)聲明|媒體秀|渠道代理
- 滬ICP備18018458號(hào)-3法律支持:上海市富蘭德林律師事務(wù)所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098