(一)模型介紹
1 關聯規則最初提出的動機是針對購物籃分析(Market Basket Analysis),該過程通過發現顧客放入“購物籃”中的不同商品之間的關聯,分析不同商品頻繁的被顧客同時購買的購物習慣。同理,我們通過關聯規則,依據人物與人物發文、回文的互動關係,發現人物與人物之間緊密關係的組合。提供依據關聯規則中支持度、信賴度、增益度三種任一規則來計算關係係數,從而依據係數篩選出重要的關係組合。係數值越大,互動越頻繁、關係越緊密,係數值越小,互動越少、關係越疏遠。
2 統計指標
(1)節點度(Node Degree):節點度是指和該節點相關聯的邊的條數,又稱關聯度。
(2)度數中心性(Degree Centrality):節點與其他節點直接連接的總量,由最大可能度標準化而來,由於存在迴圈,該值可能大於1。在有向圖中,依據連接的方向,分點入中心度(或入度,in-degree)和點出中心度(或出度,out-degree)。比如:粉絲關注關係中,出度表示關注他人的數量,入度表示粉絲數量,衡量了節點單獨的價值。
(3)接近中心性(Closeness Centrality),即節點到其他所有節點距離的總和的倒數,由最小距離標準化而來,體現節點與其他節點的近鄰程度,接近中心性值越大,表示節點能夠更快到達其他節點,衡量了節點的網路價值。
(4)中間中心性(Betweenness Centrality),即經過節點的最短路徑的數量,由最大可能值標準化而來,衡量了節點在其他節點之間的調節能力。
(5)共現關係(Co-occurrence),兩個節點共同出現的次數。
(6)網絡密度(Network Density),用於刻畫網路中節點間相互連邊的密集程度,在社會網絡中常用來測量社會關係的密集程度以及演化趨勢。
3 詞分類(社區劃分)
對網絡關係圖進行社區劃分, 同一類(社區)的節點連接密集,不同類(社區)間的節點連接稀疏。
依據Vincent D.Blondel 等人於2008提出,基於modularity optimization的heuristic方法而來。詳見:https://en.wikipedia.org/wiki/Modularity_(networks)、https://perso.crans.org/aynaud/communities/api.html#module-community
(二)研發依據
[1]Aric Hagberg,Dan Schult, Pieter Swart.NetworkX Reference.2018,1,22:171-174.
(三)演算法說明
關聯規則:
(1) 支持度(Support): 即集合中同時包含人物A和人物B的關係數與所有關係數之比。
(2) 信賴度(Confidence): 即集合中同時包含人物A和人物B的關係數與包含人物A關係數之比(條件機率)。
(3)增益度(Lift):即使用規則後關係集合中出現的次數是否高於單獨出現在關係集合中的機率。
(四)約束與限制
當人物節點出現的越多,那麼人物與人物之間組合的方式也會越多,計算耗時也會越久,對於計算資源的要求也相應提高。目前上限是支援1000組人物關係組合的輸出展示。