這 6 個爬蟲開源項目 yyds

今天盤點 6 個爬蟲開源項目，它們可以幫你爬天爬地怕空氣，爬微博、爬 B 站、爬知乎、爬 * 站。

提前聲明，切勿使用這些項目從事非法商業活動，僅用於用於科研學習

微博爬蟲

這個開源項目程序可以持續爬取一個或多個新浪微博用戶（如李文 di、無疫煩）的數據，並將結果信息寫入文件或數據庫。寫入信息幾乎包括用戶微博的所有數據，包括用戶信息和微博信息兩大類。

地址：https://github.com/dataabc/weiboSpider

爬取結果可寫入文件和數據庫，具體的寫入文件類型如下：

txt 文件
csv 文件
json 文件
MySQL 數據庫
MongoDB 數據庫
SQLite 數據庫

同時支持下載微博中的圖片和視頻，具體的可下載文件如下：

原創微博中的原始圖片
轉發微博中的原始圖片
原創微博中的視頻
轉發微博中的視頻
原創微博 Live Photo 中的視頻
轉發微博 Live Photo 中的視頻

首先需要修改 config.json 文件，然後爬取，程序會自動生成一個 weibo 文件夾，我們以後爬取的所有微博都被存儲在這裏。

然後程序在該文件夾下生成一個名爲 "微博名字" 的文件夾，明星的所有微博爬取結果都在這裏。文件夾裏包含一個 csv 文件、一個 txt 文件、一個 json 文件、一個 img 文件夾和一個 video 文件夾，img 文件夾用來存儲下載到的圖片，video 文件夾用來存儲下載到的視頻。如果你設置了保存數據庫功能，這些信息也會保存在數據庫裏，數據庫設置見設置數據庫部分。

Python 爬蟲教程

Python 爬蟲教程系列、從 0 到 1 學習 Python 爬蟲，包括瀏覽器抓包，手機 APP 抓包，如 fiddler、mitmproxy，各種爬蟲涉及的模塊的使用，如：requests、beautifulSoup、selenium、appium、scrapy 等，以及驗證碼識別，MySQL，MongoDB 數據庫的 Python 使用，多線程多進程爬蟲的使用，css 爬蟲加密逆向破解，JS 爬蟲逆向，分佈式爬蟲，爬蟲項目實戰實例等。

地址：https://github.com/wistbean/learn_python3_spider

爬蟲集合

這個開源項目收集了各種爬蟲，包括 Blibli、博客園、百度百科、北郵人、百度雲網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公衆號、網易雲等等，你能想到的國內外網站爬蟲，都可以先來這裏看看有沒有開源的爬蟲。

地址：https://github.com/facert/awesome-spider

智能爬蟲平臺

這個開源平臺以流程圖的方式定義爬蟲，是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。

地址：https://gitee.com/ssssssss-team/spider-flow

接下來以流程圖的方式，開始配置一些變量和參數，點開始就能爬出你想要的數據。

Java 爬蟲

Spiderman 是一個 Java 開源 Web 數據抽取工具，它能夠收集指定的 Web 頁面並從這些頁面中提取有用的數據。

Spiderman 主要是運用了像 XPath，正則表達式等這些技術來實數據抽取。

地址：https://gitee.com/l-weiwei/spiderman

爬蟲大全

這個開源項目包含多種網站、電商數據爬蟲。包含：淘寶商品、微信公衆號、大衆點評、招聘網站、閒魚、阿里任務、scrapy 博客園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文本採集、fofa 資產採集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評️️️。

地址：https://gitee.com/AJay13/ECommerceCrawlers

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/O3RHsq8Ec6ofSEQYE7X-LA

猜你喜歡