(一)模型介紹
1. 關鍵詞提取
(1)自動切詞:預設在全部文本中,採用TF-IDF演算法提取出指定數量的重要關鍵詞
(2)自訂部分關鍵字:可自訂關鍵詞,然後結合使用TF-IDF演算法提取出指定數量的重要關鍵詞。
(3)完全自訂關鍵字:按照使用者輸入的關鍵詞進行統計。
2. 詞關係
(1)Jaccard係數(交集與聯集的比值),即詞語共同出現的頻次與各自單獨出現頻次和之比。係數值越大,關係越強,係數值越小,關係越弱。
(2)數值標準化,為方便係數結果的觀察及解讀,採用數值標準化方法,標準化後資料區間(0.1,1)。
3. 統計指標
(1)節點度(Node Degree):節點度是指和該節點相關聯的邊的條數,又稱關聯度。
(2)度數中心性(Degree Centrality):節點與其他節點直接連接的總量,由最大可能度標準化而來,由於存在迴圈,該值可能大於1。在有向圖中,依據連接的方向,分點入中心度(或入度,in-degree)和點出中心度(或出度,out-degree),衡量了節點單獨的價值。
(3)接近中心性(Closeness Centrality),即節點到其他所有節點距離的總和的倒數,由最小距離標準化而來,體現節點與其他節點的近鄰程度,接近中心性值越大,表示節點能夠更快到達其他節點,衡量了節點的網路價值。
(4)中間中心性(Betweenness Centrality),即經過節點的最短路徑的數量,由最大可能值標準化而來,衡量了節點在其他節點之間的調節能力。
4. 詞分類(社區劃分)
對網路關係圖進行社區劃分, 同一類(社區)的節點連接密集,不同類(社區)間的節點連接稀疏。
依據Vincent D.Blondel 等人於2008提出,基於modularity optimization的heuristic方法而來。詳見:https://en.wikipedia.org/wiki/Modularity_(networks)、https://perso.crans.org/aynaud/communities/api.html#module-community
(二)研發依據
[1]Aric Hagberg,Dan Schult, Pieter Swart.NetworkX Reference.2018,1,22:171-174.
(三)演算法說明
TF-IDF演算法:
如判斷一個詞在一篇文章中是否重要,一個容易想到的衡量指標就是詞頻,重要的詞往往會在文章中多次出現。但另一方面,不是出現次數多的詞就一定重要,因為有些詞在各種文章中都頻繁出現,那它的重要性肯定不如那些只在某篇文章中頻繁出現的詞的重要性強。從統計學的角度,就是給予那些不常見的詞以較大的權重,而減少常見詞的權重。IDF(逆文檔頻率)就是這個權重,TF則指的是詞頻。
Jaccard係數:
用於比較有限樣本集之間的相似性與差異性。Jaccard係數值越大,相似度越高。
(四)約束與限制
- 預設以文章為詞語共現的基本計算單位,當確定關鍵字之後,需要在各篇文章中計算任意兩兩關鍵片語合的共現次數。於是,關鍵片語合方式的數量、文章總數量決定了模型計算時間的長短,由於迴圈反覆運算次數很多,一般耗時會比較久,對計算資源要求較高。
- 在指定關鍵字情況下,由於會將不包含指定關鍵字的所有文本過濾掉,當所有文本均不包含上述關鍵字的時候,就會過濾掉全部文本,即計算結果為空。
- 權衡計算精度、效率與資源之間的關係,當計算資料篇數大於10000篇或字元總數大於10000000時,採用隨機抽樣方式來提取關鍵詞,後續計算依舊是全量計算。
- 當指定自訂關鍵詞時,由於存在繁簡體格式,默認會自動擴展成包含繁簡體,提取關鍵詞時候,數量可能會多於指定的關鍵詞數量。
- 計算耗時受多種因素限制(如:網路穩定性、資料量、複雜度、操作準確性等),查看計算結果需刷新原始頁面,多數情況耗時5-10分鐘,若30分鐘內未看到計算結果,請回饋給客服予以跟進。