注冊用戶即可下載全站資源 關注Java幫幫微信公眾號
 

成人網站PornHub爬蟲分享(一天可爬取500萬以上的視頻)

192
發表時間:2018-11-19 14:06

PornHubBot


  • PornHubBot項目主要是爬取全球最大成人網站PornHub的視頻標題、時長、mp4鏈接、封面URL和具體的PornHub鏈接

  • 項目爬的是PornHub.com,結構簡單,速度飛快

  • 爬取PornHub視頻的速度可以達到500萬/天以上。具體視個人網絡情況,因為我是家庭網絡,所以相對慢一點。

  • 日本韩国三级aⅴ在线观看10個線程同時請求,可達到如上速度。若個人網絡環境更好,可啟動更多線程來請求,具體配置方法見 [啟動前配置]

環境、架構


開發語言: Python2.7

日本韩国三级aⅴ在线观看開發環境: MacOS系統、4G內存

日本韩国三级aⅴ在线观看數據庫: MongoDB

  • 主要使用 scrapy 爬蟲框架

  • 從Cookie池和UA池中隨機抽取一個加入到Spider

  • start_requests 根據 PorbHub 的分類,啟動了5個Request,同時對五個分類進行爬取。

  • 并支持分頁爬取數據,并加入到待爬隊列。

使用說明


啟動前配置

  • 安裝MongoDB,并啟動,不需要配置

  • 安裝Scrapy

  • 安裝Python的依賴模塊:pymongo、json、requests

  • 日本韩国三级aⅴ在线观看根據自己需要修改 Scrapy 中關于 間隔時間、啟動Requests線程數等得配置

啟動

  • python PornHub/quickstart.py

運行截圖



數據庫說明


數據庫中保存數據的表是 PhRes。以下是字段說明:

PhRes 表:

video_title:視頻的標題,并作為唯一標識.
link_url:視頻調轉到PornHub的鏈接
image_url:視頻的封面鏈接
video_duration:視頻的時長,以 s 為單位
quality_480p: 視頻480p的 mp4 下載地址


支付寶贊助-Java幫幫社區
微信贊助-Java幫幫社區
Java幫幫公眾號生態

Java幫幫公眾號生態

總有一款適合你

Java幫幫-微信公眾號

Java幫幫-微信公眾號

將分享做到極致

Python幫幫-公眾號

Python幫幫-公眾號

人工智能,爬蟲,學習教程

大數據驛站-微信公眾號

大數據驛站-微信公眾號

一起在數據中成長

九點編程-公眾號

九點編程-公眾號

深夜九點學編程

程序員生活志-公眾號

程序員生活志-公眾號

互聯網,職場,程序員那些事兒

Java幫幫學習群生態

Java幫幫學習群生態

總有一款能幫到你

Java學習群

Java學習群

與大牛一起交流

大數據學習群

大數據學習群

在數據中成長

九點編程學習群

九點編程學習群

深夜九點學編程

python學習群

python學習群

人工智能,爬蟲

測試學習群

測試學習群

感受測試的魅力

Java幫幫生態承諾

Java幫幫生態承諾

一直堅守,不負重望

初心
勤儉
誠信
正義
分享
合作品牌 非盈利生態-優質內容分享傳播者
關于我們
友鏈申請
友鏈交換:加幫主QQ2524138991 留言即可 24小時內答復  
全站內容非商業用途,內容來源于網友,并遵循 許可,如有異議請聯系客服。
會員登錄
獲取驗證碼
登錄
登錄
我的資料
留言
回到頂部