那些被低估了的 Python 庫

譯文:頭條號:機器學習與數據分析 

原文:https://towardsdatascience.com/the-most-underrated-python-packages-e22bf6049b5e?gi=f9ed1a098270

在這篇文章中,我們想展示一些不同於流行的東西。這些都是深夜瀏覽 GitHub 的感悟,以及同事們分享的壓箱底東西。這些軟件包中的一些是非常獨特的,使用起來很有趣的 Python 包。

那些被低估的 Python 庫

混合派

  1. Knock Knock: 從 Python 發送通知到移動設備、桌面或電子郵件。

  2. tqdm: 可擴展的 Python 和 CLI 進度條,內置對 pandas 的支持。

  3. Colorama: 簡單的跨平臺彩色終端文本。

  4. pandas -log: 提供熊貓基本操作的反饋。非常適合調試長管道鏈。

  5. Pandas-flavor: 擴展 pandas DataFrame/Series 的簡單方法。

  6. More-Itertools: 增加了類似於 itertools 的額外功能。

  7. streamlit: 爲機器學習項目創建應用程序的簡單方法。

數據清理和操作

  1. ftfy: 修復 mojibake 和 Unicode 文本中的其他故障。

  2. janitor: 有很多很酷的功能來清理數據。

  3. Optimus: 另一個數據清理包。

  4. Great-experctations: 一個檢查數據是否符合預期的好工具。

那些被低估的 Python 庫

數據探索和建模

  1. Pandas-profile: 創建一個包含來自 pandas DataFrame 的統計數據的 HTML 報告。

  2. dabl: 允許使用可視化和預處理進行數據探索。

  3. pydqc: 允許比較兩個數據集之間的統計數據。

  4. pandas-summary: 對 panda DataFrames 描述功能的擴展。

  5. pivottable-js:pands 在 jupyter notebook 的拖放功能。

數據結構

  1. Bounter: 有效的計數器,使用有限 (有界) 的數量的內存,無論數據大小。

  2. Python -bloomfilter: 可擴展的 Bloom Filter,使用 Python 實現。

  3. datasketch: 提供概率數據結構,如 LSH、加權 MinHash、HyperLogLog 等。

  4. ranges:Python 的連續範圍、範圍集和範圍令數據結構

那些被低估的 Python 庫

性能檢查和優化

  1. Py-spy: Python 程序的採樣分析器。

  2. pyperf: 用於運行 Python 基準測試的工具箱。

  3. snakeviz: 一個瀏覽器內的 Python 配置文件查看器,對 jupyter notebook 有很大的支持。

  4. Cachier: Python 函數的持久、無延遲、本地和跨機緩存。

  5. Faiss: 用於高效的相似性搜索和密集向量聚類的庫。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/cdNCw3d_RKceXoeenG0ROw