所有的语料:无论是小说,还是字典,或者其他的来源。这些语料都是与人相关的语料,而不是完全随机的数据。因此使用这些语料的时候,就倾向于认定这些语料是有意义的语料。这就是相关系数\(\gamma\)中的“人择原理”。
我们知道常用的中文字符大约有5000多个。如果完全随机地去计算两两之间相关系数\(\gamma\) ,将会得到约25,000,000条记录。但是这些组合的词汇都符合人的阅读习惯吗?答案是否定的。根据字典的数据分析,两两组合的数据记录仅300万条左右,是远远少于随机组合而产生的数据。
例如:“啊屙”这样的组合,就完全无意义。这样无意义的组合还有很多。对于这样无意义的组合,其相关系数也就失去了原本的价值。
因此,在后续所有的算法和分析当中,必须贯彻“人择原理”。即使其中可能出现“不合理”的组合或者歧义,这些也是人择之选。
如果不使用“人择原理”,则需要按照字符长度进行全量计算,那么这个计算量将随字符长度的增加而快速增加。
字符串长度N | 组合数量 |
---|---|
2 | 1 |
3 | 3 |
4 | 7 |
…… | …… |
N | \(2^{N-1} – 1\) |
举一个实际例子,字符串“有限公司”。这个词出现的频次很高。显然“有限”和“公司”这两个子字符串是有意义的,但是“限公”这个词是没有意义的(在字典中不存在这个词)。但是其相关系数\(\gamma\)受整个词汇影响,会变得很大。
又如:字符串“南京市长江大桥”。可以划分为:“南京|市长|江大桥”;也可以划分为:“南京市|长江大桥”。
通过查询字典,可以获得各字符串的频次。
字符串 | 频次 |
---|---|
南京 | 41100 |
市长 | 24098 |
江大桥 | 0(未能查到记录) |
南京市 | 4985 |
长江大桥 | 753 |
显然,因为字典中不存在“江大桥”这个人名,所以第一种划分被直接从数学上否定掉了。对于我们读者而言,主要还是从上下文进行理解,并判断第一个划分是错误的。因为,南京市市长到目前为止从未出现过“江大桥”这个人。
从另外一个角度来说,字典里面的词汇也反应了“人择原理”。如果真有“江大桥”这个人做了南京市市长,必然会在互联网或者语料库中留下“痕迹”。一点“痕迹”都没有,只能说不存在这个人。或者语料库不够丰富,让分析程序陷入了“资讯缺陷”之中。