如何用 Python 識別「文本字符」屬於哪個國家？

前幾天，在粉絲羣碰到這樣一個需求。

人生苦短，快學 Python！

今天就帶你來解決這個問題。

這裏使用的是 langid 庫，但是必須提前安裝。

pip install langid

在 langid 庫中，有一個 classify() 方法，它可以幫助我們識別不同國家的文本，最終返回一個元組，第一個參數，是該語言最可能的國家；第二個參數，是置信度，表示有多大把握。

我們直接上案例，爲大家做一個演示。下面有 5 個字符串，分別是不同國家關於 "你好" 的發音。

import langid

str1 = '你好'
str2 = 'hello'
str3 = '안녕하세요'
str4 = 'こんにちは'
str5 = 'Добрый день'

langid.classify(str1)
langid.classify(str2)
langid.classify(str3)
langid.classify(str4)
langid.classify(str5)

結果如下：

有了這個庫，在做某個項目時，我們就可以篩選掉其它不需要的語種，是不是巴適得板。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/ztjoXBjra0KmJXVQOFzh0Q

猜你喜歡