人择原理

所有的语料：无论是小说，还是字典，或者其他的来源。这些语料都是与人相关的语料，而不是完全随机的数据。因此使用这些语料的时候，就倾向于认定这些语料是有意义的语料。这就是相关系数\(\gamma\)中的“人择原理”。

我们知道常用的中文字符大约有5000多个。如果完全随机地去计算两两之间相关系数\(\gamma\) ，将会得到约25,000,000条记录。但是这些组合的词汇都符合人的阅读习惯吗？答案是否定的。根据字典的数据分析，两两组合的数据记录仅300万条左右，是远远少于随机组合而产生的数据。

例如：“啊屙”这样的组合，就完全无意义。这样无意义的组合还有很多。对于这样无意义的组合，其相关系数也就失去了原本的价值。

因此，在后续所有的算法和分析当中，必须贯彻“人择原理”。即使其中可能出现“不合理”的组合或者歧义，这些也是人择之选。

如果不使用“人择原理”，则需要按照字符长度进行全量计算，那么这个计算量将随字符长度的增加而快速增加。

举一个实际例子，字符串“有限公司”。这个词出现的频次很高。显然“有限”和“公司”这两个子字符串是有意义的，但是“限公”这个词是没有意义的（在字典中不存在这个词）。但是其相关系数\(\gamma\)受整个词汇影响，会变得很大。

又如：字符串“南京市长江大桥”。可以划分为：“南京|市长|江大桥”；也可以划分为：“南京市|长江大桥”。

通过查询字典，可以获得各字符串的频次。

显然，因为字典中不存在“江大桥”这个人名，所以第一种划分被直接从数学上否定掉了。对于我们读者而言，主要还是从上下文进行理解，并判断第一个划分是错误的。因为，南京市市长到目前为止从未出现过“江大桥”这个人。

从另外一个角度来说，字典里面的词汇也反应了“人择原理”。如果真有“江大桥”这个人做了南京市市长，必然会在互联网或者语料库中留下“痕迹”。一点“痕迹”都没有，只能说不存在这个人。或者语料库不够丰富，让分析程序陷入了“资讯缺陷”之中。

Post Views: 196

Algorithm.Main(args[])