語種辨識 – DiVoMiner 支援中心

模型說明：

根據自動語言識別技術對文本內容進行語種識別，支援識別中文簡體、中文繁體、英語、韓語、日語和法語等90多種語言，並統計出輸入文本內容各種語言的數量分佈情況。

該演算法在結合langID的基礎上進行優化，如新增對繁體中文識別的支援，模型採用多項式的樸素貝葉斯分類器，使用多種語言的多種場景的語料進行訓練，具有準確率高、執行速度快等優點。

準確度說明：

使用XNLI資料集（url:https://github.com/facebookresearch/XNLI）對模型進行測試，XNLI由Facebook和紐約大學的研究者聯合構建語料庫，旨在評測模型多語言的句子理解能力，最新的XLM和Multilingual BERT模型都是使用XNLI來評估跨語言效果。測試樣本共150,000篇，包含9,672,723字元，整體準確率為95.8%。當文本中存在多種語言混合的時候，識別的準確率可能會下降。

參考文獻：

Bagci, I. E., & Alhoniemi, E. (2020). Language Identification using transfer learning from large language models pre-trained on non-parallel multilingual databases. Information, 11(10), 468.
Ur Rahman, M. A., Ali Khan, F., Okasha, S., & Buya, R. (2021). Deep Language Identification using Stack of Residual and Inverted Residual Convolutional Neural Networks. IEEE Access, 9, 44999-45012.

DiVoMiner® 使用手冊

How can we help?