電腦編碼是否需要做信度測試?

在大數據的時代下,做分析的數據量與以前相比,是不可同日而語。演算法編碼的出現,不免讓許多研究者看到了希望。因為演算法編碼的優點是極為高效,可以在很短時間內完成數據分析。演算法編碼是指採用演算法或電腦挖掘數據內部規則,來得出數據編碼結果的方式[1]。它可以由研究人員設定編碼規則,讓電腦代為執行編碼過程。因此,面對龐大的數據量,想要處理客觀性文本表達時,演算法電腦人的介入成為一種實現高效的必然之選。

什麼是電腦編碼?

電腦編碼,實際上是借助大數據技術進行演算法編碼,但這個過程中,依舊有人工的介入,只是人工介入程度較人工編碼少。大數據演算法編碼通常是通過人工編碼作為基準來實現的。這個過程基於這樣的一個假設:人類對文本的理解仍然優於電腦,如果訓練正確,人類將對文本做出最正確有效的分類[2]。所以有人工設定高質量的編碼規則,加之良好的編碼員培訓,可確保在傳統的人工內容分析中的數據品質水準,也被視作內容分析的標準做法。

說到這裏,不難發現,實際上演算法編碼的準確性依然依賴於人工介入的部分,尤其是人工對演算法的設定規則,這直接決定了數據的品質。而演算法編碼只是由演算法電腦人執行,指引電腦對文本進行關鍵字的自動化標注和自動化填答選項,以完成自動編碼,借此提高編碼效率。

演算法編碼也需要考慮編碼品質的問題?

學者Song等人[3]指出,如果不能確保用於驗證的人工編碼的品質,則研究人員就自動化程式的性能得出錯誤結論的風險要大得多。可見,在使用演算法編碼時,信度測試是十分必要的!

但在不少研究中,演算法編碼的信度評估卻被忽略。學者Song等人[3]表示,他們分析了73項使用文本自動分析的研究,當中有37項報告使用人工編碼進行驗證,但只有14項充分報告了人工編碼數據的品質,有23項完全沒有報告任何編碼員間的信度。

可見,在目前文本自動分析的應用中,仍存在著完全不考慮信度,或未嚴肅對待信度的錯誤認知。但實際上,在使用演算法編碼做文本自動分析時,首先需要評估的信度,就是編碼員間信度,因為自動文本分析的編碼效度,實際上是依賴於研究人員對編碼規則的定義水準[4],而它也奠定了電腦學習的數據品質水準。

但確保了人工編碼的信度後,並非就完成了對演算法電腦人的評估。而是應該再進一步,評估人工定義的規則,在演算法編碼中實現的情況。

可見,在使用演算法編碼的正確操作流程應該是:先確保人工介入部分,即人工制定之規則的信度,再將其應用於演算法編碼中,並比較演算法編碼與人工編碼的一致性,在兩者達到一致性後,才可採用演算法編碼結果作為解讀依據。

DiVoMiner®上的信度測試功能,除了能實現對編碼員間信度的評估外,同樣可以評估演算法電腦人的信度

評估電腦人演算法的操作流程

下麵詳細給大家介紹一下具體的操作流程:

第一步:人工設定演算法的規則

「類目管理」-「新建問題」。

添加「選項」及其對應的「關鍵字」,即可設定演算法規則。

點這裏查看設置類目關鍵字的作用和規則要求

 第二步:建立測試庫

「數據管理」-「編碼庫」-「隨機導入到測試庫」,即可完成測試庫的建立。也可以選中某一條數據,點擊數據右側的「測試庫」單獨導入到測試庫。進入到「測試庫」查看已導入用以進行信度測試的數據。

第三步:做測試編碼

所有編碼員進入到「信度測試」-「編碼測試」中,閱讀文本,填寫頁面右側的編碼簿,點擊「保存」完成編碼。

 第四步:評估信度

在完成編碼後,信度結果即可即時查看!待所有編碼員完成測試編碼後,在「信度計算」中,選擇編碼員和信度指標,點擊「計算」,得到編碼員間信度結果。

其次,我們選擇編碼員、機器人和信度指標,點擊「計算」,對比人機一致性,若信度達標,證明演算法編碼結果可接受,則可讓演算法電腦人分析文本大數據。

小提示

在利用演算法電腦人完成編碼後,研究者也可以在「品質監控」中,查看或進一步修正電腦編碼的結果哦。

[1] Zmatchamith, R., & Lewis, S. C. (2015). Content analysis and the algorithmic coder: What computational social science means for traditional modes of media analysis. The ANNALS of the American Academy of Political and Social Science, 659(1), 307-318.

[2] Lowe, W., & Benoit, K. (2013). Validating estimates of latent traits from textual data using human judmatchgment as a benchmark. Political analysis, 21(3), 298-313.

Was this article helpful?

Related Articles