为了计算方便,通常将重点放在那些日常生活中最有代表性的有限数量的字符上。这样一来,标准GB2312-80集仅包括6,763个条目(1级3755个字符,二级3008个字符)。中国科学院自动化研究所建立的流行CASIA数据库中使用的紧密匹配的字符集共包含7,356个条目[6]。SCUT-COUCH数据库具有类似的覆盖[8]。
这些集合倾向于反映中国整体用户的常用字符。然而,在个人用户层面,「常用」因人而异。大多数人至少需要少数几个被认为是「不经常写」的字符,例如与他们相关的专有名词。因此,汉字手写识别算法的理想应用规模至少要达到GB18030-2005的水平。
虽然早期的识别算法主要依赖于基于个体笔画分析的结构化方法,但在后来为实现笔画顺序独立性的需求引发了使用整体形状信息的统计学方法的兴趣[5]。这显然使大量库存识别复杂化,因为正确的字符分类往往随着需要消除歧义的类别数量的增加而变得更加困难[3]。
在拉丁文的脚本任务如MNIST[4]中,卷积神经网络(CNN)很快就形成了[11]。给定足够数量的培训数据,并根据需要补充合成样品,CNN确实获得了最先进的结果[1],[10]。然而,这些研究中的类别数量非常少(10)。
当大家开始研究中国汉字的大规模识别之前,CNN似乎是显而易见的选择。但是,这种方法需要在保持嵌入式设备的实时性能的同时,将CNN扩展到大约三万个字符。本文重点介绍了在准确性,汉字覆盖率和书写风格的鲁棒性方面面临的挑战。
系统配置
大家在这个工作中采用的通用CNN架构与之前在MNIST任务的手写识别实验中使用的很相似(参见例子[1],[10])。整个系统的配置如图1所示。
图1.典型CNN架构(包含两个卷积和二次采样的连续阶段)
输入是表示手写汉字的48×48像素的中分辨率图像(出于性能原因)。大家通过依次卷积和二次采样将此输入馈送到多个特征提取层。最后一个特征提取层通过完全连接层连接到输出。
从一个卷积层到下一个卷积层,大家通过选择核的规模和特征图的数量导出越来越低质量的粒度的特征。大家使用2×2内核的最大池化层[9]进行二次采样。最后一个特征层通常包含大约1000个小特征图。最后,输出层每个类都有一个节点,例如GB2312-80的1级汉字数量为3,755,而在扩展到全部库存时接近30,000。
作为参考,大家评估了以前谈论过的CASIA基准任务的CNN实现[6]。虽然这个任务只涵盖一级汉字字符,但在文献中存在许多关于字符精度的参考结果(例如[7]和[14])。大家使用基于CASIA-OLHWDB,DB1.0-1.2,分开训练集和测试数据集的相同设置[6],[7],产生大约一百万个训练样本。
请注意,考虑到大家的产品目标是不对CASIA的最高准确度进行调整。相反,大家的优先事项是模型大小,评估速度和用户体验。因此,大家选择了一种紧凑的跨越多种书写分格的健壮的实时系统,这些字体大多是倒笔字。问题进而转化成一种基于图像的识别方法,即使大家对在线数据集进行评估。如[10],[11]中,大家补充了适度变形的实际观测值。
表1显示了使用图1的CNN的结果,其中缩写「Hz-1」是指汉字一级数据库(3,755个字符),「CR(n)」表示前n个字符识别精度。除了通常报道的前1位和前十位的精度外,大家还提到了前4位的精度,因为大家的用户界面旨在显示4位候选字符,前四位的准确度是大家系统用户体验的重要预测指标。
表1.3,755个字符的CASIA在线数据库的结果。标准训练,相关模型大小=1MB
表1中的数据与[7]和[14]中的在线结果相比,top-1精度的平均值大约为93%,top-10精度平均为98%。因此,虽然大家的top-10精度与文献一致,但大家的top-1精度略低。然而,相对于令人满意的top-4精度,必须有所平衡。甚至更重要的是,此模型尺寸(1MB)比[7]和[14]中的任何对比系统都小。
表1中的系统仅针对CASIA数据进行训练,不包括任何其他训练数据。大家也有兴趣使用iOS设备内部收集的其他训练数据。这些数据涵盖了更多种类的风格(参见下一节),并且每个字符包含更多的训练实例。表2报告了在同样的测试集与3,755个字符的上的结果,。
表2.3,755个字符的CASIA在线数据库的结果。增强训练,相关模型大小=15MB
尽管所产生的系统占用更大的内存空间(15MB),但精度只稍有提高(top-4精度高达4%)。这表明,大体而言,测试集中出现的大多数风格的字符已经在CASIA训练集中完美覆盖。这也表明减少一些训练数据没有缺点:附加样式的存在对底层模型无害。
扩大至30K个字符
由于理想的「频繁书写」的字符集因人而异,所以大量用户需要大于3,755个字符的字符量。然而,选择哪一个字符并不那么简单。用GB2312-80编码定义简体中文,用Big5,Big5E和CNS11643-92编码定义繁体中文字符涵盖范围很广(从3,755到48,027个汉字字符)。最近又有了HKSCS-2008编码,额外增加了4,568个字符,甚至可表示更多字符的GB18030-2000编码。
大家希望确保用户能够以简体中文和繁体中文以及姓名,诗歌和其他常见符号,可视化符号和表情符号来进行日常通信。大家还希望支持拉丁语文本,用于避免音译偶尔出现的拉丁文产品或商品名称。大家遵循Unicode作为流行的国际字符编码标准,因为它几乎涵盖了所有上述标准。(请注意,扩展名为B-D的Unicode7.0编码可以指定超过七十万个字符,并在考虑包含更多的字符)。因此,大家的字符识别系统集中在GB18030-2005,HKSCS-2008,Big5E,核心ASCII的汉字部分,以及一组可视化符号和表情,总共约三万个字符,大家觉得这适用于大多数中国用户。
选择基础字符集后,对用户实际使用的书写风格进行抽样至关重要。尽管有办法找到期望的书写风格(参见[13],但是仍存在许多区域差异,例如,(i)使用U+2EBF(艹)做基,或(ii)草书U+56DB(四)与U+306E(の)相比,渲染字体也可能导致混淆,因为有些用户希望以特定的风格呈现特定的字符,因为快速的输入会使字体潦草,往往会增加其辨认难度,例如U+738B(王)和U+4E94(五)之间,最后增加的国际化有时引发意想不到的冲突:例如U+4E8C(二)行文潦草时,可能与拉丁字符「2」和「Z」冲突。
大家的原理是为用户提供从打印体到草书到无约束书写的全部可能的输入[5]。为了覆盖尽可能多的变体,大家向大中华地区的几个地区的作家寻求数据。大家惊讶地发现,大多数用户从未见过多数生僻字。这种不熟悉由用户书写时犹豫,笔画顺序和其他书写问题导致,所有这些问题大家都要考虑进去。大家收集了来自不同年龄,性别以及各种教育背景的付费参与者的数据。得到的手写数据在许多方面是独一无二的:包括在iOS设备上的数以千计用户,用手指,而非手写笔,写出的小批量数据。这些数据的优点之一是,iOS设备的采样会产生非常清晰的手写信号。
大家发现很多种书写风格。图2-4以打印体,草书及无限制风格展示了字符「花」U+82B1(花)
图2。印刷基不同的U+82b1(花)
图3。草书基不同的U+82b1(花)
图4。无限制基不同的U+82b1(花)
事实上,在日常生活中,用户经常写得很快且不受约束,可能会导致书写潦草以及与正楷字体不太一样。相反,有时也会导致不同字符之间的混淆。图5-7显示了大家在数据中观察到的一些具体例子。请注意,具有足够的训练集对于区分草书变化尤为重要,如图7所示。
图5不同的U+7684(的)
图6不同的U+4EE5(以)
图7U+738(王)和U+4E94(五)形状类似
根据前面讨论的指导原则,大家可以收集数千万个字符的实例作为训练集数据。在同一测试集上,将可识别字符数从3,755增加到约30,000之后,将上节中的3,755个字符系统与表3中的结果作对比。
表3基于包含30K个字符的在线数据库CASIA的结果
请注意,模型大小保持不变,因为表2的系统仅限于「Hz-1」字符集,但是实质相同。精确度按预期略有下降,因为覆盖范围大大增加了前面提到的额外的字符混淆,例如「二」与「Z」。
比较表1-3,你将看到10倍的覆盖率不会产生10倍的错误,或10倍的存储空间。实际上,随着模型大小的增加,错误的数量增加缓慢。因此,构建一个涵盖3万个字符,而不是3,755个字符的高精度汉字识别系统是可行且实用的。
为了了解系统在整个30,000个字符中的运行情况,大家还对许多不同测试集进行了评估,这些测试集包含以各种样式编写的所有支持的字符。表4列出了平均结果。
表4。多个内部测试集的平均结果,包括所有书写风格的30,000个字符
当然,表3-4中的结果是不可直接比较的,因为它们是在不同的测试集上获得的。尽管如此,他们表示,在整个字符库中,前1和前4个精度都在同一个可接受范围上。这是训练基本完成的结果。
讨论
由于表意文字报告组(IRG)不断提出来自各种来源的新增内容,Unicode中的CJK字符总数(目前约为75,000[12])可能会增加。诚然,这些字符变体将是十分罕见的(例如,历史人物的名称或诗歌)。不过,对于每个名字都含有这些罕见字符的人来说,这是很有意思的。
那么,大家期望在未来如何处理更大的字符库呢?本文讨论的实验支持具有不同数量的训练数据集的基于训练和测试错误率的学习曲线[2]。因此,大家可以通过更大的训练集来推断渐进的准确性,以及使用更多的字符集提升的效果。
例如,考虑到表1和表3之间的10倍大的数据集和相应的(少于)2%的精度下降,大家可以推算出100,000个字符的数据集和相应增加的训练数据,达到84%左右的top-1精度,和97%左右的top-10精度是实际可行的(使用相同类型的架构)。
总而言之,即使在包含了30,000个汉字的嵌入式设备上构建高精度的手写识别系统也是可行的。此外,只要有足够数量的高质量的训练数据来扩大数据集,准确性才会缓慢下降。这对未来更大的字符库的识别大有裨益。
参考
[1]D.C.Ciresan,U.Meier,L.M.Gambardella,andJ.Schmidhuber,ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification,in*11thInt.Conf.DocumentAnalysisRecognition(ICDAR2011)*,Beijing,China,Sept.2011.
[1]D.C.Ciresan,U.Meier,L.M.Gambardella,andJ.Schmidhuber,ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification,in*eleventhInt.Conf.DocumentAnalysisRecognition(ICDARtwentyeleven)*,Beijing,China,Sept.twentyeleven.
[2]C.Cortes,L.D.Jackel,S.A.Jolla,V.Vapnik,andJ.S.Denker,LearningCurves:AsymptoticValuesandRateofConvergence,in*AdvancesinNeuralInformationProcessingSystems(NIPS1993)*,Denver,pp.327–334,Dec.1993.
[2]C.Cortes,L.D.Jackel,S.A.Jolla,V.Vapnik,andJ.S.Denker,LearningCurves:AsymptoticValuesandRateofConvergence,in*AdvancesinNeuralInformationProcessingSystems(NIPSnineteenninetythree)*,Denver,pp.threehundredtwentyseven–threehundredthirtyfour,Dec.nineteenninetythree.
[3]G.E.HintonandK.J.Lang,ShapeRecognitionandIllusoryConjunctions,in*Proc.9thInt.JointConf.ArtificialIntelligence,LosAngeles,CA*,pp.252–259,1985.
[3]G.E.HintonandK.J.Lang,ShapeRecognitionandIllusoryConjunctions,in*Proc.9thInt.JointConf.ArtificialIntelligence,LosAngeles,CA*,pp.twohundredfiftytwo–twohundredfiftynine,nineteeneightyfive.
[4]Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner,Gradient–basedLearningAppliedtoDocumentRecognition,*Proc.IEEE*,Vol.86,No.11,pp.2278–2324,Nov.1998.
[4]Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner,Gradient–basedLearningAppliedtoDocumentRecognition,*Proc.IEEE*,Vol.eightysix,No.eleven,pp.twothousandtwohundredseventyeight–twothousandthreehundredtwentyfour,Nov.nineteenninetyeight.
[5]C.-L.Liu,S.Jaeger,andM.Nakagawa,OnlineRecognitionofChineseCharacters:TheState-of-the-Art,*IEEETrans.PatternAnalysisMachineIntelligence*,Vol.26,No.2,pp.198–213,Feb.2004.
[5]C.-L.Liu,S.Jaeger,andM.Nakagawa,OnlineRecognitionofChineseCharacters:TheState-of-the-Art,*IEEETrans.PatternAnalysisMachineIntelligence*,Vol.twentysix,No.2,pp.onehundredninetyeight–twohundredthirteen,Feb.Twothouasandfour.
[6]C.-L.Liu,F.Yin,D.-H.Wang,andQ.-F.Wang,CASIAOnlineandOfflineChineseHandwritingDatabases,in*Proc.11thInt.Conf.DocumentAnalysisRecognition(ICDAR2011)*,Beijing,China,Sept.2011.
[6]C.-L.Liu,F.Yin,D.-H.Wang,andQ.-F.Wang,CASIAOnlineandOfflineChineseHandwritingDatabases,in*Proc.eleventhInt.Conf.DocumentAnalysisRecognition(ICDARtwentyeleven)*,Beijing,China,Sept.twentyeleven.
[7]C.-L.Liu,F.Yin,Q.-F.Wang,andD.-H.Wang,ICDAR2011ChineseHandwritingRecognitionCompetition,in*11thInt.Conf.DocumentAnalysisRecognition(ICDAR2011)*,Beijing,China,Sept.2011.
[7]C.-L.Liu,F.Yin,Q.-F.Wang,andD.-H.Wang,ICDARtwentyelevenChineseHandwritingRecognitionCompetition,in*eleventhInt.Conf.DocumentAnalysisRecognition(ICDARtwentyeleven)*,Beijing,China,Sept.twentyeleven.
[8]Y.Li,L.Jin,X.Zhu,T.Long,SCUT-COUCH2008:AComprehensiveOnlineUnconstrainedChineseHandwritingDataset(ICFHR2008),Montreal,pp.165–170,Aug.2008.
[8]Y.Li,L.Jin,X.Zhu,T.Long,SCUT-COUCH2008:AComprehensiveOnlineUnconstrainedChineseHandwritingDataset(ICFHR2008),Montreal,pp.onehundredsixyfive–onehundredseventy,Aug.twothousandeight.
[9]K.Jarrett,K.Kavukcuoglu,M.Ranzato,andY.LeCun,WhatistheBestMulti-stageArchitectureforObjectRecognition?,in*Proc.IEEEInt.Conf.ComputerVision(ICCV09)*,Kyoto,Japan,Sept.2009.
[9]K.Jarrett,K.Kavukcuoglu,M.Ranzato,andY.LeCun,WhatistheBestMulti-stageArchitectureforObjectRecognition?,in*Proc.IEEEInt.Conf.ComputerVision(ICCV09)*,Kyoto,Japan,Sept.twothousandnine.
[10]U.Meier,D.C.Ciresan,L.M.Gambardella,andJ.Schmidhuber,BetterDigitRecognitionwithaCommitteeofSimpleNeuralNets,in*11thInt.Conf.DocumentAnalysisRecognition(ICDAR2011)*,Beijing,China,Sept.2011.
[ten]U.Meier,D.C.Ciresan,L.M.Gambardella,andJ.Schmidhuber,BetterDigitRecognitionwithaCommitteeofSimpleNeuralNets,in*eleventhInt.Conf.DocumentAnalysisRecognition(ICDARtwentyeleven)*,Beijing,China,Sept.twentyeleven.
[11]P.Y.Simard,D.Steinkraus,andJ.C.Platt,BestPracticesforConvolutionalNeuralNetworksAppliedtoVisualDocumentAnalysis,in*7thInt.Conf.DocumentAnalysisRecognition(ICDAR2003)*,Edinburgh,Scotland,Aug.2003.
[eleven]P.Y.Simard,D.Steinkraus,andJ.C.Platt,BestPracticesforConvolutionalNeuralNetworksAppliedtoVisualDocumentAnalysis,in*7thInt.Conf.DocumentAnalysisRecognition(ICDARtwothousandthree)*,Edinburgh,Scotland,Aug.twothousandthree.
[12]Unicode,ChineseandJapanese,http://www.unicode.org/faq/han_cjk.html,2015.
[twelve]Unicode,ChineseandJapanese,http://www.unicode.org/faq/han_cjk.html,twentyfifteen.
[13]F.F.Wang,ChineseCursiveScript:AnIntroductiontoHandwritinginChinese,FarEasternPublicationsSeries,NewHaven,CT:YaleUniversityPress,1958.
[thirteen]F.F.Wang,ChineseCursiveScript:AnIntroductiontoHandwritinginChinese,FarEasternPublicationsSeries,NewHaven,CT:YaleUniversityPress,nineteenfiftyeight.
[14]F.Yin,Q.-F.Wang,X.-Y.Xhang,andC.-L.Liu,ICDAR2013ChineseHandwritingRecognitionCompetition,in*11thInt.Conf.DocumentAnalysisRecognition(ICDAR2013)*,WashingtonDC,USA,Sept.2013.