注冊用戶即可下載全站資源 關注Java幫幫微信公眾號
 

使用Python模擬登錄知乎

6
發表時間:2019-06-26 10:15

最近突然對爬蟲興趣倍增,主要是自己想從網上爬點數據來玩玩。前陣子 從某房屋出售網爬取了長沙地區的房價以及2016年的成交額,只有幾千條數據,量較少,沒勁o(╯□╰)o,因此將目標成功地轉移到了社交網上,難度顯然 大了點。爬取社交網站比較鮮明的特點就是需要登錄,否則很多東西都無法獲取。做了幾個小Demo之后發現,人人網的登錄還比較簡單,驗證碼的都不用就可以 成功登錄;知乎雖然攜帶驗證碼,但難度算是適中;微博的登錄難度稍微大點,因為不僅有驗證碼,還在傳遞參數的時候對用戶名進行了base64加密。在這篇 博文里,主要是以知乎為例,模擬知乎登錄,至于數據爬取部分咱們就暫且不談吧。

.

模擬過程概述

  1. 使用Google瀏覽器結合Fiddler來監控客戶端與服務端的通訊過程;

  2. 根據監控結果,構造請求服務器過程中傳遞的參數;

  3. 使用Python模擬參數傳遞過程。

客戶端與服務端通信過程的幾個關鍵點:

  • 登錄時的url地址。

  • 日本韩国三级aⅴ在线观看登錄時提交的參數【params】,獲取方式主要有兩種:第一、分析頁面源代碼,找到表單標簽及屬性。適應比較簡單的頁面。第二、使用抓包工具,查看提交的url和參數,通常使用的是Chrome的開發者工具中的Network, Fiddler等。

  • 登錄后跳轉的url。

日本韩国三级aⅴ在线观看在抓包的時候,開始使用的是Chrome開發工具中的Network,結果沒有抓到,后來使用Fiddler成功抓取數據。下面逐步來細化上述過程。

參數探索

首先看看這個登錄頁面(),也就是我們登錄時的url地址。

日本韩国三级aⅴ在线观看看到這個頁面,我們也可以大概猜測下請求服務器時傳遞了幾個字段,很明顯有:用戶名、密碼、驗證碼以及“記住我”這幾個值。那么實際上有哪些呢?下面來分分析下。

首先查看一下HTML源碼,Google里可以使用CTRL+U查看,然后使用CTRL+F輸入input看看有哪些字段值,詳情如下:

通過源碼,我們可以看到,在請求服務器的過程中還攜帶了一個隱藏字段”_xsrf”。那么現在的問題是:這些參數在傳遞時是以什么名字傳遞的呢?這就需要借用其他工具抓包進行分析了。筆者是Windows系統,這里使用的是Fiddler日本韩国三级aⅴ在线观看(當然,你也可以使用其他的)。

抓包過程比較繁瑣,因為抓到的東西比較多,很難快速的找到需要的信息。關于fiddler,很容易使用,有過不會,可以去百度搜一下。為了防止其他 信息干擾,我們先將fiddler中的記錄清除,然后輸入用戶名(筆者使用的是郵箱登錄)、密碼等信息登錄,相應的在fiddler中會有如下結果:

備注:如果是使用手機登錄,則對應fiddler中的url是“/login/phone_num”。

為了查看詳細的請求參數,我們左鍵單機“/login/email”,可以看到下列信息:

請求方式為POST,請求的url為。而從From Data可以看出,相應的字段名稱如下:

  • _xsrf

  • captcha

  • email

  • password

  • remember

日本韩国三级aⅴ在线观看對于這五個字段,代碼中email、password以及captcha都是手動輸入的,remember初始化為true。剩下的_xsrf則可以根據登錄頁面的源文件,取input為_xsrf的value值即可。

對于驗證碼,則需要通過額外的請求,該鏈接可以通過定點查看源碼看出:

鏈接為,這里省略了ts(經測試,可省略掉)。現在,可以使用代碼進行模擬登錄。

溫馨提示:如果使用的是手機號碼進行登錄,則請求的url為,同時email字段名稱將變成“phone_num”。

模擬源碼

在編寫代碼實現知乎登錄的過程中,筆者將一些功能封裝成了一個簡單的類WSpider,以便復用,文件名稱為。

# -*- coding: utf-8 -*-"""Created on Thu Nov 02 14:01:17 2016@author: liudiwei"""import urllib
import urllib2
import cookielib
import logging  

classWSpider(object):def__init__(self):#init params
        self.url_path = None
        self.post_data = None
        self.header = None
        self.domain = None
        self.operate = None
        #init cookie
        self.cookiejar = cookielib.LWPCookieJar()
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookiejar))
        urllib2.install_opener(self.opener)defsetRequestData(self, url_path=None, post_data=None, header=None):
        self.url_path = url_path
        self.post_data = post_data
        self.header = header

    defgetHtmlText(self, is_cookie=False):if self.post_data == None and self.header == None:
            request = urllib2.Request(self.url_path)else:
            request = urllib2.Request(self.url_path, urllib.urlencode(self.post_data), self.header)
        response = urllib2.urlopen(request)if is_cookie: 
            self.operate = self.opener.open(request)
        resText = response.read()return resText 

    """    Save captcha to local        """defsaveCaptcha(self, captcha_url, outpath, save_mode='wb'):
        picture = self.opener.open(captcha_url).read()#用openr訪問驗證碼地址,獲取cookie
        local = open(outpath, save_mode)
        local.write(picture)
        local.close()defgetHtml(self, url):
        page = urllib.urlopen(url)
        html = page.read()return html

    """    功能:將文本內容輸出至本地    @params         content:文本內容        out_path: 輸出路徑    """defoutput(self, content, out_path, save_mode="w"):
        fw = open(out_path, save_mode)
        fw.write(content)
        fw.close()"""#EXAMPLE     logger = createLogger('mylogger', 'temp/logger.log')    logger.debug('logger debug message')      logger.info('logger info message')      logger.warning('logger warning message')      logger.error('logger error message')      logger.critical('logger critical message')      """defcreateLogger(self, logger_name, log_file):# 創建一個logger
        logger = logging.getLogger(logger_name)  
        logger.setLevel(logging.INFO)# 創建一個handler,用于寫入日志文件    
        fh = logging.FileHandler(log_file)# 再創建一個handler,用于輸出到控制臺    
        ch = logging.StreamHandler()# 定義handler的輸出格式formatter    
        formatter = logging.Formatter('%(asctime)s | %(name)s | %(levelname)s | %(message)s')  
        fh.setFormatter(formatter)  
        ch.setFormatter(formatter)# 給logger添加handler    
        logger.addHandler(fh)  
        logger.addHandler(ch)return logger

日本韩国三级aⅴ在线观看關于模擬登錄知乎的源碼,保存在文件,內容如下:

# -*- coding: utf-8 -*-"""Created on Thu Nov 02 17:07:17 2016@author: liudiwei"""import urllib
from WSpider import WSpider
from bs4 import BeautifulSoup as BS
import getpass
import json
import WLogger as WLog

"""2016.11.03 由于驗證碼問題暫時無法正常登陸2016.11.04 成功登錄,期間出現下列問題驗證碼錯誤返回:{ "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼錯誤"}, "msg": "驗證碼錯誤" }驗證碼過期:{ "r": 1, "errcode": 1991829, "data": {"captcha":"驗證碼回話無效 :(","name":"ERR_VERIFY_CAPTCHA_SESSION_INVALID"}, "msg": "驗證碼回話無效 :(" }登錄:{"r":0, "msg": "登錄成功"}"""defzhiHuLogin():
    spy = WSpider()
    logger = spy.createLogger('mylogger','temp/logger.log')
    
    homepage = r"http://www.zhihu.com/"    
    html = spy.opener.open(homepage).read()
    soup = BS(html,"html.parser")
    _xsrf = soup.find("input",{'type':'hidden'}).get("value")#根據email和手機登陸得到的參數名不一樣,email登陸傳遞的參數是‘email’,手機登陸傳遞的是‘phone_num’
    username = raw_input("Please input username: ")
    password = getpass.getpass("Please input your password: ")
    account_name = None
    if"@"in username:
        account_name ='email'else:
        account_name ='phone_num'#保存驗證碼
    logger.info("save captcha to local machine.")
    captchaURL = r"http://www.zhihu.com/captcha.gif?type=login"#驗證碼url
    spy.saveCaptcha(captcha_url=captchaURL, outpath="temp/captcha.jpg")#temp目錄需手動創建#請求的參數列表
    post_data ={'_xsrf': _xsrf,
        account_name: username,'password': password,'remember_me':'true','captcha':raw_input("Please input captcha: ")}#請求的頭內容
    header ={'Accept':'*/*','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','X-Requested-With':'XMLHttpRequest','Referer':'http://www.zhihu.com/','Accept-Language':'en-GB,en;q=0.8,zh-CN;q=0.6,zh;q=0.4','Accept-Encoding':'gzip, deflate, br','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36','Host':'www.zhihu.com'}

    url = r"http://www.zhihu.com/login/"+ account_name
    spy.setRequestData(url, post_data, header)
    resText = spy.getHtmlText()
    jsonText = json.loads(resText)if jsonText["r"]==0:
        logger.info("Login success!")else:
        logger.error("Login Failed!")
        logger.error("Error info ---> "+ jsonText["msg"])
        
    text = spy.opener.open(homepage).read()#重新打開主頁,查看源碼可知此時已經處于登錄狀態
    spy.output(text,"out/home.html")#out目錄需手動創建if __name__ =='__main__':
    zhiHuLogin()

日本韩国三级aⅴ在线观看關于源碼的分析,可以參考代碼中的注解。

運行結果

在控制臺中運行python zhiHuLogin.py,然后按提示輸入相應的內容,最后可得到以下不同的結果(舉了三個實例):

結果一:密碼錯誤

結果二:驗證碼錯誤

結果三:成功登錄

通過代碼,可以成功的登錄到知乎,接著如果要爬取知乎里面的內容,就比較方便了。

本文最初發表在,文章內容屬作者個人觀點,不代表本站立場。

文章分類: Python
分享到:
支付寶贊助-Java幫幫社區
微信贊助-Java幫幫社區
Java幫幫公眾號生態

Java幫幫公眾號生態

總有一款適合你

Java幫幫-微信公眾號

Java幫幫-微信公眾號

將分享做到極致

Python幫幫-公眾號

Python幫幫-公眾號

人工智能,爬蟲,學習教程

大數據驛站-微信公眾號

大數據驛站-微信公眾號

一起在數據中成長

九點編程-公眾號

九點編程-公眾號

深夜九點學編程

程序員生活志-公眾號

程序員生活志-公眾號

互聯網,職場,程序員那些事兒

Java幫幫學習群生態

Java幫幫學習群生態

總有一款能幫到你

Java學習群

Java學習群

與大牛一起交流

大數據學習群

大數據學習群

在數據中成長

九點編程學習群

九點編程學習群

深夜九點學編程

python學習群

python學習群

人工智能,爬蟲

測試學習群

測試學習群

感受測試的魅力

Java幫幫生態承諾

Java幫幫生態承諾

一直堅守,不負重望

初心
勤儉
誠信
正義
分享
合作品牌 非盈利生態-優質內容分享傳播者
關于我們
友鏈申請
友鏈交換:加幫主QQ2524138991 留言即可 24小時內答復  
全站內容非商業用途,內容來源于網友,并遵循 許可,如有異議請聯系客服。
會員登錄
獲取驗證碼
登錄
登錄
我的資料
留言
回到頂部