人择原理

所有的语料:无论是小说,还是字典,或者其他的来源。这些语料都是与人相关的语料,而不是完全随机的数据。因此使用这些语料的时候,就倾向于认定这些语料是有意义的语料。这就是相关系数\(\gamma\)中的“人择原理”。

我们知道常用的中文字符大约有5000多个。如果完全随机地去计算两两之间相关系数\(\gamma\) ,将会得到约25,000,000条记录。但是这些组合的词汇都符合人的阅读习惯吗?答案是否定的。根据字典的数据分析,两两组合的数据记录仅300万条左右,是远远少于随机组合而产生的数据。

例如:“啊屙”这样的组合,就完全无意义。这样无意义的组合还有很多。对于这样无意义的组合,其相关系数也就失去了原本的价值。

因此,在后续所有的算法和分析当中,必须贯彻“人择原理”。即使其中可能出现“不合理”的组合或者歧义,这些也是人择之选。

如果不使用“人择原理”,则需要按照字符长度进行全量计算,那么这个计算量将随字符长度的增加而快速增加。

字符串长度N组合数量
21
33
47
…………
N\(2^{N-1} – 1\)

举一个实际例子,字符串“有限公司”。这个词出现的频次很高。显然“有限”和“公司”这两个子字符串是有意义的,但是“限公”这个词是没有意义的(在字典中不存在这个词)。但是其相关系数\(\gamma\)受整个词汇影响,会变得很大。

又如:字符串“南京市长江大桥”。可以划分为:“南京|市长|江大桥”;也可以划分为:“南京市|长江大桥”。

通过查询字典,可以获得各字符串的频次。

字符串频次
南京41100
市长24098
江大桥0(未能查到记录)
南京市4985
长江大桥753

显然,因为字典中不存在“江大桥”这个人名,所以第一种划分被直接从数学上否定掉了。对于我们读者而言,主要还是从上下文进行理解,并判断第一个划分是错误的。因为,南京市市长到目前为止从未出现过“江大桥”这个人。

从另外一个角度来说,字典里面的词汇也反应了“人择原理”。如果真有“江大桥”这个人做了南京市市长,必然会在互联网或者语料库中留下“痕迹”。一点“痕迹”都没有,只能说不存在这个人。或者语料库不够丰富,让分析程序陷入了“资讯缺陷”之中。