如何用 Python 識別「文本字符」屬於哪個國家?
前幾天,在粉絲羣碰到這樣一個需求。
今天就帶你來解決這個問題。
這裏使用的是 langid 庫,但是必須提前安裝。
pip install langid
在 langid 庫中,有一個 classify() 方法,它可以幫助我們識別不同國家的文本,最終返回一個元組,第一個參數,是該語言最可能的國家;第二個參數,是置信度,表示有多大把握。
我們直接上案例,爲大家做一個演示。下面有 5 個字符串,分別是不同國家關於 "你好" 的發音。
import langid
str1 = '你好'
str2 = 'hello'
str3 = '안녕하세요'
str4 = 'こんにちは'
str5 = 'Добрый день'
langid.classify(str1)
langid.classify(str2)
langid.classify(str3)
langid.classify(str4)
langid.classify(str5)
結果如下:
有了這個庫,在做某個項目時,我們就可以篩選掉其它不需要的語種,是不是巴適得板。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/ztjoXBjra0KmJXVQOFzh0Q