文本分析之新詞發現

2024年2月6日 22点热度 0人点赞

文本分析時,有些詞是無法被詞典識別到,比如‘元宇宙’這樣的新詞,以前的詞典並沒有它。因而可結合新詞發現算法提供一些建議,新詞發現具體算法可參考文章“基於信息熵和互信息的新詞提取實現”,或者《互聯網時代的社會語言學:基於SNS的文本數據挖掘》。

新詞發現時涉及到兩個關鍵指標,分別是:信息熵和互信息。信息熵的意義為衡量某詞與其它詞組合一起的容易度,比如‘宇宙’這個詞與‘元’或者‘世界’組合一起變成‘元宇宙’或者‘宇宙世界’的容易度情況。信息熵越大即意味著某詞越容易與其它詞組合在一起形成一個詞語,信息熵越小即意味著某詞越不容易與其它詞組合在一起。

互信息的意義為衡量文本組合的緊密程度,比如‘元’、‘宇宙’這兩個詞組合在一起的緊密程度情況。互信息值越大則意味著該兩個詞(或多個)組合在一起越牢固即越可能是一個新詞,反之互信息值越小則意味著越不可能是新詞。

提示:

結合信息熵和互信息的意義,一般情況下,新詞更加可能為信息熵較高且互信息較高時出現。

信息熵越高意味著詞更容易與其它詞組合成新詞,而且與其它詞組合成新詞的牢固度越高,即意義為‘信息熵’越高,‘互信息’越高時,越有可能是新詞。

但具體情況還需要研究者結合新詞發現和其實際意義進行綜合決擇,並無固定標準。而且通常還需要考慮詞頻情況,當一個‘可能新詞’僅出現幾次甚至更少時,加入新詞的意義就很小。當判定為新詞時,可批量將其加入到新詞詞庫中,重新進行文本分析,以便得到更準備的文本分析結果。

在SPSSAU中,默認輸入信息熵和互信息這兩個指標,如下圖所示:

表格中輸入‘可能新詞’,其對應的詞頻信息,信息熵和互信息,當然如果判斷為新詞,可直接對該詞加入新詞詞庫(也或者移除出去),也可以‘批量加入新詞’,通常是批量加入新詞更加便捷。上表格時,可通過排序按鈕查看可能新詞的具體情況,當然也可以對其進行下載。

除此之外,還可點擊某個‘可能新詞’,查看其具體的詞定位信息,比如點擊‘城市更新’,右側可查看其在文本數據中的具體位置和內容等,如下圖所示:

為了更直觀的查看各個‘可能新詞’,也可點擊‘詞雲’按鈕直觀展示,如下圖所示:

特別提示:

信息熵和互信息的設定標準參考:在實際研究中一般取信息熵為0.5左右,互信息一般為50~200之間即可。

當然研究者可自行定義該兩個指標值的標準,然後重新分析即可。操作如下圖所示: