破解人类识别文字之谜，对图像中的字母进行无监督学习

转载时间：2021.04.09（原文发布时间：2017.08.25）

316

转载作者：36氪企服点评小编

阅读次数：316次

编者按：本文由微信公众号“新智元”（ID：AI_era）编译，作者：Alberto Testolin,Ivilin Stoianov & Marco Zorzi ，编译：熊笑；36氪经授权发布。

Nature 子刊 Nature Human Behavior 上最新发表了一篇关于人类行为的研究，通过对自然图像中的字母进行无监督学习，探讨了人类是如何获得文字识别能力的。研究人员提出了一个基于深度神经网络的大规模字母识别计算模型，通过将概率生成模型与视觉输入拟合，以完全无监督的方式开发了复杂的内部表征的层次结构。

书写符号的使用是人类文化发展的重大成就。然而，抽象的字母表征是如何在视觉中进行学习的，这仍然是未解决的问题。发表在 Nature.com 上的一篇题为 Letter perception emerges from unsupervised deep learning and recycling of natural image features 的研究报告中，研究人员提出了一个基于深度神经网络的大规模的字母识别计算模型，通过将概率生成模型与视觉输入拟合，以完全无监督的方式开发了更为复杂的内部表征的层次结构。

有这样一个假设，学习书写符号部分地重新使用了用于对象识别的预先存在的神经元回路，模型的早期处理阶段利用了从自然图像中学习的一般领域（domain-general）的视觉特征，而特定领域（domain-specific）的特征则出现在曝光于印刷字母前的上游神经元中。

研究论证，即使对于噪声降级（noise-degraded）的图像，这些高级别表征可以很容易地映射到字母识别，从而产生和人类观察者类似的对于字母认知的广泛实证结果的准确模拟。研究者的模型显示出，通过重用自然的视觉原语（primitives），学习书写符号只需要有限的、特定领域的调整，这支持了字母形状被文化选择以匹配自然环境的统计结构的假设。

图 1a 刻画了研究者提出的模型的整体架构。网络底层接收了作为图像像素灰度级别激活编码的感知信号。出现在视网膜和丘脑中的低级别视觉处理被一个启发自生物学的 whitening 算法所模拟，捕捉到了图像中的局部空间关系，成为了对比归一化（contrast normalization）的一个步骤。

破解人类识别文字之谜，对图像中的字母进行无监督学习图1 是深度学习架构和自然图像及印刷字母数据样本。

a，深度学习架构。每个框代表了网络中的一层神经元。和 whitening 步骤相应的有方向的箭头引出了前馈的处理过程，而无方向的连接显示了无监督生成学习所利用的双向处理过程。和线性读数层相应的有方向的箭头引出了监督学习。在字母处理过程中涉及到的相应大脑网络显示在右侧（LGN, 背外侧膝状体核; V1, 首要视觉皮层; V2, 二级视觉皮层; V4, 纹状体外视觉皮层；OTS, 颞枕沟）；

b,包含多个小 patch （40 × 40 pixels）的自然图像，显示在右侧；c,研究者的数据集中印刷字母的样本，使用多种字体、风格、大小和位置关系创造而成。

研究人员将编码在第一个内部层（隐式）神经元的潜在特征集称为H1, H1 模仿了出现在早期大脑皮层视觉（corticalvision ，在 V1 和 V2 中）的处理类型。

破解人类识别文字之谜，对图像中的字母进行无监督学习