Python 教你用 Rows 快速操作 csv 文件

Rows 是一個專門用於操作表格的第三方 Python 模塊。

只要通過 Rows 讀取 csv 文件,她就能生成可以被計算的 Python 對象。

相比於 pandas 的 pd.read_csv, 我認爲 Rows 的優勢在於其易於理解的計算語法和各種方便的導出和轉換語法。它能非常方便地提取 pdf 中的文字、將 csv 轉換爲 sqlite 文件、合併 csv 等,還能對 csv 文件執行 sql 語法,還是比較強大的。

當然,它的影響力肯定沒有 Pandas 大,不過了解一下吧,技多不壓身。

1. 準備

開始之前,你要確保 Python 和 pip 已經成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細 Python 安裝指南 進行安裝。

(可選 1) 如果你用 Python 的目的是數據分析,可以直接安裝 Anaconda:Python 數據分析與挖掘好幫手—Anaconda,它內置了 Python 和 pip.

(可選 2) 此外,推薦大家用 VSCode 編輯器,它有許多的優點:Python 編程的最好搭檔—VSCode 詳細指南

請選擇以下任一種方式輸入命令安裝依賴

  1. Windows 環境 打開 Cmd (開始 - 運行 - CMD)。
  2. MacOS 環境 打開 Terminal (command + 空格輸入 Terminal)。
  3. 如果你用的是 VSCode 編輯器 或 Pycharm,可以直接使用界面下方的 Terminal.
pip install rows

2. 基本使用

通過下面這個小示例,你就能知道 Rows 的基本使用方法。

假設我們有這樣的一個 csv 表格數據:

state,city,inhabitants,area
AC,Acrelândia,12538,1807.92
AC,Assis Brasil,6072,4974.18
AC,Brasiléia,21398,3916.5
AC,Bujari,8471,3034.87
AC,Capixaba,8798,1702.58
[...]
RJ,Angra dos Reis,169511,825.09
RJ,Aperibé,10213,94.64
RJ,Araruama,112008,638.02
RJ,Areal,11423,110.92
RJ,Armação dos Búzios,27560,70.28
[...]

如果我們想要找出 state 爲 RJ 並且人口大於 500000 的城市,只需要這麼做:

import rows

cities = rows.import_from_csv("data/brazilian-cities.csv")
rio_biggest_cities = [
    city for city in cities
    if city.state == "RJ" and city.inhabitants > 500000
]
for city in rio_biggest_cities:
    density = city.inhabitants / city.area
    print(f"{city.city} ({density:5.2f} ppl/km²)")

和 Pandas 很像,但是語法比 Pandas 簡單,整個模塊也比 Pandas 輕量。

如果你想要自己新建一個 "表格", 你可以這麼寫:

from collections import OrderedDict
from rows import fields, Table


country_fields = OrderedDict([
    ("name", fields.TextField),
    ("population", fields.IntegerField),
])

countries = Table(fields=country_fields)
countries.append({"name": "Argentina", "population": "45101781"})
countries.append({"name": "Brazil", "population": "212392717"})
countries.append({"name": "Colombia", "population": "49849818"})
countries.append({"name": "Ecuador", "population": "17100444"})
countries.append({"name": "Peru", "population": "32933835"})

然後你可以迭代它:

for country in countries:
    print(country)
# Result:
# Row(name='Argentina', population=45101781)
# Row(name='Brazil', population=212392717)
# Row(name='Colombia', population=49849818)
# Row(name='Ecuador', population=17100444)
# Row(name='Peru', population=32933835)
# "Row" is a namedtuple created from `country_fields`

# We've added population as a string, the library automatically converted to
# integer so we can also sum:
countries_population = sum(country.population for country in countries)
print(countries_population) # prints 357378595

還可以將此表導出爲 CSV 或任何其他支持的格式:

# 公衆號:Python實用寶典
import rows
rows.export_to_csv(countries, "some-LA-countries.csv")

# html
rows.export_to_html(legislators, "some-LA-countries.csv")

從字典導入到 rows 對象:

import rows

data = [
    {"name": "Argentina", "population": "45101781"},
    {"name": "Brazil", "population": "212392717"},
    {"name": "Colombia", "population": "49849818"},
    {"name": "Ecuador", "population": "17100444"},
    {"name": "Peru", "population": "32933835"},
    {"name": "Guyana", }, # Missing "population", will fill with `None`
]
table = rows.import_from_dicts(data)
print(table[-1]) # Can use indexes
# Result:
# Row(name='Guyana', population=None)

3. 命令行工具

除了寫 Python 代碼外,你還可以直接使用 Rows 的命令行工具,下面介紹幾個可能會經常被用到的工具。

讀取 pdf 文件內的文字並保存爲文件:

# 需要提前安裝: pip install rows[pdf]
URL="http://www.imprensaoficial.rr.gov.br/app/_edicoes/2018/01/doe-20180131.pdf"
rows pdf-to-text $URL result.txt # 保存到文件 顯示進度條
rows pdf-to-text --quiet $URL result.txt # 保存到文件 不顯示進度條
rows pdf-to-text --pages=1,2,3 $URL # 輸出三頁到終端
rows pdf-to-text --pages=1-3 $URL # 輸出三頁到終端(使用 - 範圍符)

將 csv 轉化爲 sqlite:

rows csv2sqlite \
     --dialect=excel \
     --input-encoding=latin1 \
     file1.csv file2.csv \
     result.sqlite

合併多個 csv 文件:

rows csv-merge \
     file1.csv file2.csv.bz2 file3.csv.xz \
     result.csv.gz

對 csv 執行 sql 搜索:

# needs: pip install rows[html]
rows query \
    "SELECT * FROM table1 WHERE inhabitants > 1000000" \
    data/brazilian-cities.csv \
    --output=data/result.html

其他更多功能,請見 Rows 官方文檔:

http://turicas.info/rows

我們的文章到此就結束啦,如果你喜歡今天的 Python 實戰教程,請持續關注 Python 實用寶典。

Python 實用寶典 (pythondict.com)
不只是一個寶典

歡迎關注公衆號:Python 實用寶典

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/Gq-6StBlFfMgARTwK_Y6NQ