数学解释

相关系数\(\gamma\)的定义可以用概率来进行解释。
对于字符串\(s\)在语料的统计概率\(P\) ,可以表达为:

\[P=\frac {f}{T}\]

由于\(T\) 为一个全局常数,因此可以说\(P\)正比于\(f\)(即 \(P∝f\) )。
于是有:\(f∝P,f_1∝P_1,f_2∝P_2,….,f_N∝P_N\) 。

以两个子字符串\(\{s_1,s_2\}\)拼接而成的字符串\(s\)为例。

\[\gamma_s=\frac {f_s}{2}(\frac {1}{f_1}+\frac {1}{f_2})=\frac {P_s}{2}(\frac {1}{P_1}+\frac {1}{P_2})\]

由条件概率公式\(P(AB)=P(A) \cdot P(B|A)\)可得:

\[P(s)=P(s_1s_2)=P(s_1)\cdot P(s_2 | s_1)=P(s_2) \cdot P(s_1 | s_2)\]

所以:

\[\gamma_s=\frac {f_s}{2}(\frac {1}{f_1}+\frac {1}{f_2})=\frac {P_s}{2}(\frac {1}{P_1}+\frac {1}{P_2}) \\ = \frac {P(s)}{2}[\frac {1}{P(s_1)} + \frac {1}{P(s_2)}] = \frac {1}{2}[P(s_2|s_1) + P(s_1|s_2)]\]

推而广之,即可理解相关系数的数学含义。

\[\gamma_s = \frac {f}{N} \sum \limits_{i=1}^N \frac {1}{f_i} = \frac {P}{N} \sum \limits_{i=1}^N \frac {1}{P_i} \\ = \frac {P(s_1s_2…s_N)}{N} \sum \limits_{i=1}^N \frac {1}{P(s_i)} = \frac {1}{N} \sum \limits_{i=1}^N \frac {P(s_1s_2…s_N)}{P(s_i)} \\ = \frac {1}{N} \sum \limits_{i=1}^N P(k_i|s_i)\]

其中\(k_i\)为从子字符串\(\{s_1,s_2,…..,s_N\}\)中去除\(s_i\)的集合。

由于字符串\(s\)是由子字符串\(\{s_1,s_2,…..,s_N\}\)顺序拼接而成。因此,每个子字符串出现的位置都是固定的,不存在排列的问题。所以可以将相关系数\(\gamma\)的定义推广,并用于一般性概率事件的相关性判断。

概率中的链式法则,在这里可以换一个角度进行表达:

\[P(s_1s_2…s_N)=P(s_1)P(s_2|s_1)P(s_3|s_1s_2)⋅⋅⋅P(s_N|s_1s_2…s_{N−1}) \\ =\frac {f_1}{T} \cdot \frac {f_{12}}{f_1} \cdot \frac {f_{123}}{f_{12}}……\cdot \frac {f_{123……N}}{f_{12……N-1}} = \frac {f}{T}\]

从以上分析可以看出相关系数\(\gamma\)是描述各个子字符串之间的相关关系;而概率只是描述字符串在整个语料中出现的概率。两者之间内在涵义有很大差别。