摘要:追根溯源、体会方法、欣赏超越。
Chapter1 · 文字、数字、语言、信息
相似性与一致性
【原理】数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。其他文字一样,数字在早期只是承载信息的工具,并不具有任何抽象的含义。半个多世纪前香农博士提出信息论,人们才开始把数学和信息系统自觉地联系起来。
【聚类】在古埃及的象形文字中,读音相同的词可能用同一个符号记录。这种概念的聚类,在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性。
【消歧】文字按照意思来聚类,最终会带来一些歧义性,通过上下文,大多数情况下多义字的去除歧义(Disambiguation)都可以做到。
【翻译】翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。(这个结论很重要。)进一步讲,文字只是信息的载体,而非信息本身。
【语料】罗塞塔石碑的破译,有两点指导意义:1、信息的冗余是信息安全的保障;2、语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。
【通信】在通信时,如果信道较宽,信息不必压缩 就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩, 然后在接收端进行解压缩
【校验位】做事认真的犹太人要求在抄写 《圣经》时发明了一种类似于我们今天计算机和通信中校验码的方法。他们把 每一个希伯来字母对应于一个数字,这样每行文字加起来便得到一个特 殊的数字,这个数字便成为了这一行的校验码。
【语法】莎士比亚的作品在他的时代完全是通俗而大众化的,其中包括大量违反古语法的名句,那个时代就开始有人试图完善(其实是 篡改)莎士比亚戏剧。可今天这些语言不但没有消失,反而成了经典, 而试图完善他著作的人却早已为大众遗忘。这就涉及到一个语言学研究方法的问题:到底是语言对,还是语法对。自然语言处理的成就最终宣布了前者的获胜。