文本分析之新詞發現

文本分析時，有些詞是無法被詞典識別到，比如‘元宇宙’這樣的新詞，以前的詞典並沒有它。因而可結合新詞發現算法提供一些建議，新詞發現具體算法可參考文章“基於信息熵和互信息的新詞提取實現”，或者《互聯網時代的社會語言學：基於SNS的文本數據挖掘》。

新詞發現時涉及到兩個關鍵指標，分別是：信息熵和互信息。信息熵的意義為衡量某詞與其它詞組合一起的容易度，比如‘宇宙’這個詞與‘元’或者‘世界’組合一起變成‘元宇宙’或者‘宇宙世界’的容易度情況。信息熵越大即意味著某詞越容易與其它詞組合在一起形成一個詞語，信息熵越小即意味著某詞越不容易與其它詞組合在一起。

互信息的意義為衡量文本組合的緊密程度，比如‘元’、‘宇宙’這兩個詞組合在一起的緊密程度情況。互信息值越大則意味著該兩個詞（或多個）組合在一起越牢固即越可能是一個新詞，反之互信息值越小則意味著越不可能是新詞。

提示：

結合信息熵和互信息的意義，一般情況下，新詞更加可能為信息熵較高且互信息較高時出現。

信息熵越高意味著詞更容易與其它詞組合成新詞，而且與其它詞組合成新詞的牢固度越高，即意義為‘信息熵’越高，‘互信息’越高時，越有可能是新詞。

但具體情況還需要研究者結合新詞發現和其實際意義進行綜合決擇，並無固定標準。而且通常還需要考慮詞頻情況，當一個‘可能新詞’僅出現幾次甚至更少時，加入新詞的意義就很小。當判定為新詞時，可批量將其加入到新詞詞庫中，重新進行文本分析，以便得到更準備的文本分析結果。

在SPSSAU中，默認輸入信息熵和互信息這兩個指標，如下圖所示：