编者按:来自中国传媒大学的研究人员进一步证实了语言中存在的Zipf定律,并发现人类说话时也遵循双过程理论。本文经授权译自MIT Technology Review原标题为" DATA MINING REVEALS FUNDAMENTAL PATTERN OF HUMAN THINKING "的文章。
早在1935年,美国语言学家George Zipf就有了一个惊人的发现。Zipf对常用单词和不常用单词之间的关系很感兴趣。所以他计算了单词在日常语言中出现的频率,然后根据它们的频率对单词进行排序。
这一研究揭示了一个显著的规律。Zipf发现一个单词的频率与它在排序中的位置成反比。也就是说,排名第二的单词出现的频率是最常出现的单词的一半。排名第三的单词出现的频率是最常出现的单词的三分之一,以此类推。
在英语中,最常用的单词是the,占所有单词的7%,然后是and, 占所有单词的3.5%,以此类推。事实上,大约有135个单词出现的频率占了所有单词的一半。因此,一些单词经常出现,而大多数几乎从未出现过。
但这是为什么呢?一种有趣的可能性是,大脑处理常用单词的方式不同与处理生僻单词的方式不同,研究Zipf的单词使用频率分布对研究大脑的这种处理过程非常重要。
不过,这里有一个问题。语言学家并不都同意,单词频率的统计分布是认知过程的结果。
相反,一些人认为Zipf发现的分布是与低频词汇相关的统计错误的结果,这些错误可以产生相似的分布。
当然,为了解决这个问题,我们需要做更大范围的研究,囊括更广泛的语言。这样一项大规模的研究能使Zipf分布在统计上更有说服力,已验证其是否为统计错误。
如今,我们有了相关的研究成果,这要归功于中国传媒大学的Shuiyuan Yu和他的同事们的努力。他们已经在50种语言中发现了Zipf定律,这些语言包括印欧语系、乌拉尔语、阿尔泰语、高加索语、汉藏语、德拉威语、非亚语系等。
Yu和他的同事说,这些语言中的单词的频率遵循一个共同的分布结构,这种结构不同于统计错误所产生的结构。更重要的是,他们说这种结构表明大脑处理常见词汇的方式与不常见词汇不同,这一观点对自然语言处理和自动生成文本的研究有重要的影响。
Yu和他的同事采用的方法很简单。他们从两大语料库开始,分别为英国国家语料库和莱比锡语料库。这些语料库包括50种不同的语言样本,每个样本包含至少3万句话,多达4300万的词汇。
研究人员发现,所有语言中的频率都遵循一个经过修正的Zipf定律,在这个定律中,分布可以被分成三个部分。Yu说:“统计结果表明,在50种语言中Zipf定律都遵循一个相同的三段结构模式,每一段都表现出独特的语言特性。”
这个三段结构很有趣。Yu和他的同事试图用一些能创建单词的模型来模拟这种结构。
其中一种模型叫做“monkey-at-a-typewriter”模型,它可以生成随机的字母,每当有空格出现时,就会形成单词。
这个过程产生一个幂律分布,就像Zipf定律那样。然而,它不能产生于Yu和同事们所发现的三段结构。这种结构也不能由与低频词相关的统计错误产生。这也证明Zipf定律不是由统计错误造成的。
然而,Yu和他的同事能够利用具有大脑工作方式的模型来重现这种结构,即双重过程理论。
这就是大脑以两种不同的方式运作的观点。
第一种方式是快速直观的思维,几乎不需要推理。这种类型的思维被认为是进化所致,它允许人类在危险的情况下做出快速反应。它通常能为困难问题的解决提供很好的方案,比如模式识别,但是也很容易被非直觉的情况所欺骗。
不过不用担心,人类还可以进行更理性的思考。第二种思维方式更慢,更精于算计,更深思熟虑。正是这种思维让我们能够解决诸如数学难题之类的复杂问题。
双重过程理论认为,像the、and和if这样的常用词汇,都是通过快速、直观的思维来处理的,因此被更频繁地使用。这些词汇构成了句子的主要部分。
然而,像假设和hypothesis 和Zipf’s Law 这种不太常见的词汇和短语在应用时需要更仔细的思考。也正是因为如此,它们很少出现。
事实上,当Yu和他的同事模拟双重过程理论时,他们得到了在单词频率分布中产生的三段结构,类似之前研究50种不同的语言时得到的结构。
在三段结构中,第一部分反映了常见词汇的分布,最后一部分反映了不常见词汇的分布,中间部分是这两种词汇交叉的结果。Yu和他的同事说:“这些结果表明,语言中的Zipf定律是由认知机制所激发的,类似控制人类语言行为的双重过程。”
这是一项很有趣的研究。近年来,人类大脑以两种不同方式处理信息的想法获得了长足发展,尤其是因为诺贝尔奖得主、心理学家丹尼尔卡尼曼的《思考,快与慢》一书,对双重过程理论进行了详细的研究。
下面这个众所周知的问题,可以触发快速和缓慢的思考:
“一个球拍和一个球总共花费了1.10美元。球拍比球贵1美元,一个球要多少钱?”
答案当然是5美分。但几乎每个人的第一反应都是10美分。这是因为10美分在直观感觉上是正确的。这个答案来自于你大脑快速、直观的一面。
但这是错误的。正确的答案需要你大脑中较慢、更精于计算的部分来思考。
Yu和他的同事说,人类造句是也经过同样的两个过程。你大脑中快速思考的部分创造了句子的基本结构。另外一些词汇需要你的大脑更慢,更精于计算的部分。
正是这个双重过程导致了具有三段结构的Zipf定律。
这应该会对从事自然语言处理的计算机科学家的研究产生有趣的结果。这一领域的发展得益于近年来的巨大进步。他们得益于机器学习算法,或者像谷歌这样的公司收集的大量文本数据库。
但是,生成自然语言仍然很困难。你不需要和Siri、Cortana或谷歌助手聊太长时间,就遇到和他们的谈话限制。
因此,搞清楚人类如何造句,可能会对机器生成自然语言有很大的帮助。Zipf也肯定会被这项技术深深吸引。
编译组出品。译者:刘麦麦 Jane,编辑:郝鹏程。