首页 >

如何做到实时识别手写汉字 – CSS – 前端,css calc兼容

animate.css中文,css 元素 滚动,css怎么实现方框,css 设置底部边框阴影,css显示红色的字体,html css动画点击按钮,css calc兼容如何做到实时识别手写汉字 - CSS - 前端,css calc兼容

随着手机、平板和可穿戴设备如智能手表的普及,手写识别比以往任何时候都更为重要。在这些移动设备上支持汉字手写识别需要大型的符号库,这提出了独特的挑战。这篇文章介绍了大家如何应对实现 iPhone,ipad 和 Apple Watch(Scribble 模式)优良实时性能带来的挑战。大家基于深度学习的识别系统能够精确地识别 30,000 个汉字。为了达到令人满意的精确性,大家特别关注数据采集条件,书写风格的代表性和训练方案。大家发现只要有合适的方法,即使更大型的符号库也是可以实现的。大家的实验表明,只要大家使用有足够质量和数量的训练数据,符号库增加带来的不精确性就会降低。引言

手写识别可以增强移动设备的用户体验,特别是对于中文输入的用户,因为键盘打字有较高的复杂度。由于底层字符库的数量庞大,汉字手写识别带来了独一无二的挑战。不同于基于字母的文字,通常只涉及 100 个符号,中国国家标准 GB18030-2005 中的一组汉字字符包含了 27,533 个条目,除此之外还有很多在中国广泛使用的语标字符。

为了计算方便,通常将重点放在那些日常生活中最有代表性的有限数量的字符上。这样一来,标准 GB2312-80 集仅包括 6,763 个条目(1 级 3755 个字符,二级 3008 个字符)。中国科学院自动化研究所建立的流行 CASIA 数据库中使用的紧密匹配的字符集共包含 7,356 个条目 [6]。SCUT-COUCH 数据库具有类似的覆盖 [8]。

这些集合倾向于反映中国整体用户的常用字符。然而,在个人用户层面,「常用」因人而异。大多数人至少需要少数几个被认为是「不经常写」的字符,例如与他们相关的专有名词。因此,汉字手写识别算法的理想应用规模至少要达到 GB18030-2005 的水平。

虽然早期的识别算法主要依赖于基于个体笔画分析的结构化方法,但在后来为实现笔画顺序独立性的需求引发了使用整体形状信息的统计学方法的兴趣 [5]。这显然使大量库存识别复杂化,因为正确的字符分类往往随着需要消除歧义的类别数量的增加而变得更加困难 [3]。

在拉丁文的脚本任务如 MNIST [4] 中,卷积神经网络(CNN)很快就形成了 [11]。给定足够数量的培训数据,并根据需要补充合成样品,CNN 确实获得了最先进的结果 [1],[10]。然而,这些研究中的类别数量非常少(10)。

当大家开始研究中国汉字的大规模识别之前,CNN 似乎是显而易见的选择。但是,这种方法需要在保持嵌入式设备的实时性能的同时,将 CNN 扩展到大约三万个字符。本文重点介绍了在准确性,汉字覆盖率和书写风格的鲁棒性方面面临的挑战。

系统配置

大家在这个工作中采用的通用 CNN 架构与之前在 MNIST 任务的手写识别实验中使用的很相似(参见例子 [1],[10])。整个系统的配置如图 1 所示。

图 1. 典型 CNN 架构(包含两个卷积和二次采样的连续阶段)

输入是表示手写汉字的 48×48 像素的中分辨率图像(出于性能原因)。大家通过依次卷积和二次采样将此输入馈送到多个特征提取层。最后一个特征提取层通过完全连接层连接到输出。

从一个卷积层到下一个卷积层,大家通过选择核的规模和特征图的数量导出越来越低质量的粒度的特征。大家使用 2×2 内核的最大池化层 [9] 进行二次采样。最后一个特征层通常包含大约 1000 个小特征图。最后,输出层每个类都有一个节点,例如 GB2312-80 的 1 级汉字数量为 3,755,而在扩展到全部库存时接近 30,000。

作为参考,大家评估了以前谈论过的 CASIA 基准任务的 CNN 实现 [6]。虽然这个任务只涵盖一级汉字字符,但在文献中存在许多关于字符精度的参考结果(例如 [7] 和 [14])。大家使用基于 CASIA-OLHWDB,DB1.0-1.2,分开训练集和测试数据集的相同设置 [6],[7],产生大约一百万个训练样本。

请注意,考虑到大家的产品目标是不对 CASIA 的最高准确度进行调整。相反,大家的优先事项是模型大小,评估速度和用户体验。因此,大家选择了一种紧凑的跨越多种书写分格的健壮的实时系统,这些字体大多是倒笔字。问题进而转化成一种基于图像的识别方法,即使大家对在线数据集进行评估。如 [10],[11] 中,大家补充了适度变形的实际观测值。

表 1 显示了使用图 1 的 CNN 的结果,其中缩写「Hz-1」是指汉字一级数据库(3,755 个字符),「CR(n)」表示前 n 个字符识别精度。除了通常报道的前 1 位和前十位的精度外,大家还提到了前 4 位的精度,因为大家的用户界面旨在显示 4 位候选字符,前四位的准确度是大家系统用户体验的重要预测指标。

表 1. 3,755 个字符的 CASIA 在线数据库的结果。标准训练,相关模型大小= 1MB

表 1 中的数据与 [7] 和 [14] 中的在线结果相比,top-1 精度的平均值大约为 93%,top-10 精度平均为 98%。因此,虽然大家的 top-10 精度与文献一致,但大家的 top-1 精度略低。然而,相对于令人满意的 top-4 精度,必须有所平衡。甚至更重要的是,此模型尺寸(1 MB)比 [7] 和 [14] 中的任何对比系统都小。

表 1 中的系统仅针对 CASIA 数据进行训练,不包括任何其他训练数据。大家也有兴趣使用 iOS 设备内部收集的其他训练数据。这些数据涵盖了更多种类的风格(参见下一节),并且每个字符包含更多的训练实例。表 2 报告了在同样的测试集与 3,755 个字符的上的结果,。

表 2. 3,755 个字符的 CASIA 在线数据库的结果。增强训练,相关模型大小= 15MB

尽管所产生的系统占用更大的内存空间(15 MB),但精度只稍有提高(top-4 精度高达 4%)。这表明,大体而言,测试集中出现的大多数风格的字符已经在 CASIA 训练集中完美覆盖。这也表明减少一些训练数据没有缺点:附加样式的存在对底层模型无害。

扩大至 30K 个字符

由于理想的「频繁书写」的字符集因人而异,所以大量用户需要大于 3,755 个字符的字符量。然而,选择哪一个字符并不那么简单。用 GB2312-80 编码定义简体中文,用 Big5,Big5E 和 CNS 11643-92 编码定义繁体中文字符涵盖范围很广(从 3,755 到 48,027 个汉字字符)。最近又有了 HKSCS-2008 编码,额外增加了 4,568 个字符,甚至可表示更多字符的 GB18030-2000 编码。

大家希望确保用户能够以简体中文和繁体中文以及姓名,诗歌和其他常见符号,可视化符号和表情符号来进行日常通信。大家还希望支持拉丁语文本,用于避免音译偶尔出现的拉丁文产品或商品名称。大家遵循 Unicode 作为流行的国际字符编码标准,因为它几乎涵盖了所有上述标准。(请注意,扩展名为 B-D 的 Unicode 7.0 编码可以指定超过七十万个字符,并在考虑包含更多的字符)。因此,大家的字符识别系统集中在 GB18030-2005,HKSCS-2008,Big5E,核心 ASCII 的汉字部分,以及一组可视化符号和表情,总共约三万个字符,大家觉得这适用于大多数中国用户。

选择基础字符集后,对用户实际使用的书写风格进行抽样至关重要。尽管有办法找到期望的书写风格(参见 [13],但是仍存在许多区域差异,例如,(i)使用 U + 2EBF(艹)做基,或(ii)草书 U + 56DB(四)与 U + 306E(の)相比,渲染字体也可能导致混淆,因为有些用户希望以特定的风格呈现特定的字符,因为快速的输入会使字体潦草,往往会增加其辨认难度,例如 U + 738B(王)和 U + 4E94(五)之间,最后增加的国际化有时引发意想不到的冲突:例如 U + 4E8C(二)行文潦草时,可能与拉丁字符「2」和「Z」冲突。

大家的原理是为用户提供从打印体到草书到无约束书写的全部可能的输入 [5]。为了覆盖尽可能多的变体,大家向大中华地区的几个地区的作家寻求数据。大家惊讶地发现,大多数用户从未见过多数生僻字。这种不熟悉由用户书写时犹豫,笔画顺序和其他书写问题导致,所有这些问题大家都要考虑进去。大家收集了来自不同年龄,性别以及各种教育背景的付费参与者的数据。得到的手写数据在许多方面是独一无二的:包括在 iOS 设备上的数以千计用户,用手指,而非手写笔,写出的小批量数据。这些数据的优点之一是,iOS 设备的采样会产生非常清晰的手写信号。

大家发现很多种书写风格。图 2-4 以打印体,草书及无限制风格展示了字符「花」U+82B1 (花)

图 2。印刷基不同的 U + 82b1(花)

图 3。草书基不同的 U + 82b1(花)

图 4。无限制基不同的 U + 82b1(花)

事实上,在日常生活中,用户经常写得很快且不受约束,可能会导致书写潦草以及与正楷字体不太一样。相反,有时也会导致不同字符之间的混淆。图 5-7 显示了大家在数据中观察到的一些具体例子。请注意,具有足够的训练集对于区分草书变化尤为重要,如图 7 所示。

图 5 不同的 U+7684 (的)

图 6 不同的 U+4EE5 (以)

图 7 U+738 (王) 和 U+4E94 (五) 形状类似

根据前面讨论的指导原则,大家可以收集数千万个字符的实例作为训练集数据。在同一测试集上,将可识别字符数从 3,755 增加到约 30,000 之后,将上节中的 3,755 个字符系统与表 3 中的结果作对比。

表 3 基于包含 30K 个字符的在线数据库 CASIA 的结果

请注意,模型大小保持不变,因为表 2 的系统仅限于「Hz-1」字符集,但是实质相同。精确度按预期略有下降,因为覆盖范围大大增加了前面提到的额外的字符混淆,例如「二」与「Z」。

比较表 1-3,你将看到 10 倍的覆盖率不会产生 10 倍的错误,或 10 倍的存储空间。实际上,随着模型大小的增加,错误的数量增加缓慢。因此,构建一个涵盖 3 万个字符,而不是 3,755 个字符的高精度汉字识别系统是可行且实用的。

为了了解系统在整个 30,000 个字符中的运行情况,大家还对许多不同测试集进行了评估,这些测试集包含以各种样式编写的所有支持的字符。表 4 列出了平均结果。

表 4。多个内部测试集的平均结果,包括所有书写风格的 30,000 个字符

当然,表 3-4 中的结果是不可直接比较的,因为它们是在不同的测试集上获得的。尽管如此,他们表示,在整个字符库中,前 1 和前 4 个精度都在同一个可接受范围上。这是训练基本完成的结果。

讨论

由于表意文字报告组(IRG)不断提出来自各种来源的新增内容,Unicode 中的 CJK 字符总数(目前约为 75,000 [12])可能会增加。诚然,这些字符变体将是十分罕见的(例如,历史人物的名称或诗歌)。不过,对于每个名字都含有这些罕见字符的人来说,这是很有意思的。

那么,大家期望在未来如何处理更大的字符库呢?本文讨论的实验支持具有不同数量的训练数据集的基于训练和测试错误率的学习曲线 [2]。因此,大家可以通过更大的训练集来推断渐进的准确性,以及使用更多的字符集提升的效果。

例如,考虑到表 1 和表 3 之间的 10 倍大的数据集和相应的(少于)2%的精度下降,大家可以推算出 100,000 个字符的数据集和相应增加的训练数据,达到 84%左右的 top-1 精度,和 97%左右的 top-10 精度是实际可行的(使用相同类型的架构)。

总而言之,即使在包含了 30,000 个汉字的嵌入式设备上构建高精度的手写识别系统也是可行的。此外,只要有足够数量的高质量的训练数据来扩大数据集,准确性才会缓慢下降。这对未来更大的字符库的识别大有裨益。

参考

[1] D.C. Ciresan, U. Meier, L.M. Gambardella, and J. Schmidhuber, Convolutional Neural Network Committees For Handwritten Character Classification, in *11th Int. Conf. Document Analysis Recognition (ICDAR 2011)*, Beijing, China, Sept. 2011.

[1] D.C. Ciresan, U. Meier, L.M. Gambardella, and J. Schmidhuber, Convolutional Neural Network Committees For Handwritten Character Classification, in *eleventh Int. Conf. Document Analysis Recognition (ICDAR twenty eleven)*, Beijing, China, Sept. twenty eleven.

[2] C. Cortes, L.D. Jackel, S.A. Jolla, V. Vapnik, and J.S. Denker, Learning Curves: Asymptotic Values and Rate of Convergence, in *Advances in Neural Information Processing Systems (NIPS 1993)*, Denver, pp. 327–334, Dec. 1993.

[2] C. Cortes, L.D. Jackel, S.A. Jolla, V. Vapnik, and J.S. Denker, Learning Curves: Asymptotic Values and Rate of Convergence, in *Advances in Neural Information Processing Systems (NIPS nineteen ninety three)*, Denver, pp. three hundred twenty seven–three hundred thirty four, Dec. nineteen ninety three.

[3] G.E. Hinton and K.J. Lang, Shape Recognition and Illusory Conjunctions, in *Proc. 9th Int. Joint Conf. Artificial Intelligence, Los Angeles, CA*, pp. 252–259, 1985.

[3] G.E. Hinton and K.J. Lang, Shape Recognition and Illusory Conjunctions, in *Proc. 9th Int. Joint Conf. Artificial Intelligence, Los Angeles, CA*, pp. two hundred fifty two – two hundred fifty nine, nineteen eighty five.

[4] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient– based Learning Applied to Document Recognition, *Proc. IEEE*, Vol. 86, No. 11, pp. 2278–2324, Nov. 1998.

[4] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient– based Learning Applied to Document Recognition, *Proc. IEEE*, Vol. eighty six, No. eleven, pp. two thousand two hundred seventy eight–two thousand three hundred twenty four, Nov. nineteen ninety eight.

[5] C.-L. Liu, S. Jaeger, and M. Nakagawa, Online Recognition of Chinese Characters: The State-of-the-Art, *IEEE Trans. Pattern Analysis Machine Intelligence*, Vol. 26, No. 2, pp. 198–213, Feb. 2004.

[5] C.-L. Liu, S. Jaeger, and M. Nakagawa, Online Recognition of Chinese Characters: The State-of-the-Art, *IEEE Trans. Pattern Analysis Machine Intelligence*, Vol. twenty six, No. 2, pp. one hundred ninety eight–two hundred thirteen, Feb. Two thouasand four.

[6] C.-L. Liu, F. Yin, D.-H. Wang, and Q.-F. Wang, CASIA Online and Offline Chinese Handwriting Databases, in *Proc. 11th Int. Conf. Document Analysis Recognition (ICDAR 2011)*, Beijing, China, Sept. 2011.

[6] C.-L. Liu, F. Yin, D.-H. Wang, and Q.-F. Wang, CASIA Online and Offline Chinese Handwriting Databases, in *Proc. eleventh Int. Conf. Document Analysis Recognition (ICDAR twenty eleven)*, Beijing, China, Sept. twenty eleven.

[7] C.-L. Liu, F. Yin, Q.-F. Wang, and D.-H.Wang, ICDAR 2011 Chinese Handwriting Recognition Competition,in *11th Int. Conf. Document Analysis Recognition (ICDAR 2011)*, Beijing, China, Sept. 2011.

[7] C.-L. Liu, F. Yin, Q.-F. Wang, and D.-H.Wang, ICDAR twenty eleven Chinese Handwriting Recognition Competition,in *eleventh Int. Conf. Document Analysis Recognition (ICDAR twenty eleven)*, Beijing, China, Sept. twenty eleven.

[8] Y. Li, L. Jin , X. Zhu, T. Long, SCUT-COUCH2008: A Comprehensive Online Unconstrained Chinese Handwriting Dataset (ICFHR 2008), Montreal, pp. 165–170, Aug. 2008.

[8] Y. Li, L. Jin , X. Zhu, T. Long, SCUT-COUCH2008: A Comprehensive Online Unconstrained Chinese Handwriting Dataset (ICFHR 2008), Montreal, pp. one hundred sixy five–one hundred seventy, Aug. two thousand eight.

[9] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun, What is the Best Multi-stage Architecture for Object Recognition?, in *Proc. IEEE Int. Conf. Computer Vision (ICCV09)*, Kyoto, Japan, Sept. 2009.

[9] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun, What is the Best Multi-stage Architecture for Object Recognition?, in *Proc. IEEE Int. Conf. Computer Vision (ICCV09)*, Kyoto, Japan, Sept. two thousand nine.

[10] U. Meier, D.C. Ciresan, L.M. Gambardella, and J. Schmidhuber, Better Digit Recognition with a Committee of Simple Neural Nets, in *11th Int. Conf. Document Analysis Recognition (ICDAR 2011)*, Beijing, China, Sept. 2011.

[ten] U. Meier, D.C. Ciresan, L.M. Gambardella, and J. Schmidhuber, Better Digit Recognition with a Committee of Simple Neural Nets, in *eleventh Int. Conf. Document Analysis Recognition (ICDAR twenty eleven)*, Beijing, China, Sept. twenty eleven.

[11] P.Y. Simard, D. Steinkraus, and J.C. Platt, Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, in *7th Int. Conf. Document Analysis Recognition (ICDAR 2003)*, Edinburgh, Scotland, Aug. 2003.

[eleven] P.Y. Simard, D. Steinkraus, and J.C. Platt, Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, in *7th Int. Conf. Document Analysis Recognition (ICDAR two thousand three)*, Edinburgh, Scotland, Aug. two thousand three.

[12] Unicode, Chinese and Japanese, http://www.unicode.org/faq/han_cjk.html, 2015.

[twelve] Unicode, Chinese and Japanese,http://www.unicode.org/faq/han_cjk.html, twenty fifteen.

[13] F.F. Wang, Chinese Cursive Script: An Introduction to Handwriting in Chinese, Far Eastern Publications Series, New Haven, CT: Yale University Press, 1958.

[thirteen] F.F. Wang, Chinese Cursive Script: An Introduction to Handwriting in Chinese, Far Eastern Publications Series, New Haven, CT: Yale University Press, nineteen fifty eight.

[14] F. Yin, Q.-F. Wang, X.-Y. Xhang, and C.-L. Liu, ICDAR2013 Chinese Handwriting Recognition Competition, in *11th Int. Conf. Document Analysis Recognition (ICDAR 2013)*, Washington DC, USA, Sept. 2013.


如何做到实时识别手写汉字 - CSS - 前端,css calc兼容
  • 迷你世界怎么用q币充值 - CSS - 前端,csstransfom属性
  • 迷你世界怎么用q币充值 - CSS - 前端,csstransfom属性 | 迷你世界怎么用q币充值 - CSS - 前端,csstransfom属性 ...

    如何做到实时识别手写汉字 - CSS - 前端,css calc兼容
  • word表格里横向箭头怎么往左移 - CSS - 前端,css暂停按钮
  • word表格里横向箭头怎么往左移 - CSS - 前端,css暂停按钮 | word表格里横向箭头怎么往左移 - CSS - 前端,css暂停按钮 ...

    如何做到实时识别手写汉字 - CSS - 前端,css calc兼容
  • 网络启动联邦信息处理标准FIPS兼容F是什么意思 - CSS - 前端,css圆角兼容写法
  • 网络启动联邦信息处理标准FIPS兼容F是什么意思 - CSS - 前端,css圆角兼容写法 | 网络启动联邦信息处理标准FIPS兼容F是什么意思 - CSS - 前端,css圆角兼容写法 ...