這 6 個爬蟲開源項目 yyds

今天盤點 6 個爬蟲開源項目,它們可以幫你爬天爬地怕空氣,爬微博、爬 B 站、爬知乎、爬 * 站。

提前聲明,切勿使用這些項目從事非法商業活動,僅用於用於科研學習

01

微博爬蟲

這個開源項目程序可以持續爬取一個或多個新浪微博用戶(如李文 di、無疫煩)的數據,並將結果信息寫入文件或數據庫。寫入信息幾乎包括用戶微博的所有數據,包括用戶信息和微博信息兩大類。

地址:https://github.com/dataabc/weiboSpider

爬取結果可寫入文件和數據庫,具體的寫入文件類型如下:

同時支持下載微博中的圖片和視頻,具體的可下載文件如下:

首先需要修改 config.json 文件,然後爬取,程序會自動生成一個 weibo 文件夾,我們以後爬取的所有微博都被存儲在這裏。

然後程序在該文件夾下生成一個名爲 "微博名字" 的文件夾,明星的所有微博爬取結果都在這裏。文件夾裏包含一個 csv 文件、一個 txt 文件、一個 json 文件、一個 img 文件夾和一個 video 文件夾,img 文件夾用來存儲下載到的圖片,video 文件夾用來存儲下載到的視頻。如果你設置了保存數據庫功能,這些信息也會保存在數據庫裏,數據庫設置見設置數據庫部分。   

02

Python 爬蟲教程

Python 爬蟲教程系列、從 0 到 1 學習 Python 爬蟲,包括瀏覽器抓包,手機 APP 抓包,如 fiddler、mitmproxy,各種爬蟲涉及的模塊的使用,如:requests、beautifulSoup、selenium、appium、scrapy 等,以及驗證碼識別,MySQL,MongoDB 數據庫的 Python 使用,多線程多進程爬蟲的使用,css 爬蟲加密逆向破解,JS 爬蟲逆向,分佈式爬蟲,爬蟲項目實戰實例等。

地址:https://github.com/wistbean/learn_python3_spider

03

爬蟲集合

這個開源項目收集了各種爬蟲 ,包括 Blibli、博客園、百度百科、北郵人、百度雲網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公衆號、網易雲等等,你能想到的國內外網站爬蟲,都可以先來這裏看看有沒有開源的爬蟲。

地址:https://github.com/facert/awesome-spider

04

智能爬蟲平臺

這個開源平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。

地址:https://gitee.com/ssssssss-team/spider-flow

接下來以流程圖的方式,開始配置一些變量和參數,點開始就能爬出你想要的數據。

05

Java 爬蟲

Spiderman 是一個 Java 開源 Web 數據抽取工具,它能夠收集指定的 Web 頁面並從這些頁面中提取有用的數據。

Spiderman 主要是運用了像 XPath,正則表達式等這些技術來實數據抽取。

地址:https://gitee.com/l-weiwei/spiderman

06

爬蟲大全

這個開源項目包含多種網站、電商數據爬蟲。包含:淘寶商品、微信公衆號、大衆點評、招聘網站、閒魚、阿里任務、scrapy 博客園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文本採集、fofa 資產採集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評️️️。

地址:https://gitee.com/AJay13/ECommerceCrawlers

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/O3RHsq8Ec6ofSEQYE7X-LA