模拟登陆cookie操作

模拟登陆是为了爬取基于某些用户的用户信息;
比如个人主页中显示的用户信息。
通过对模拟登陆之后网页进行解析并请求:

import requests
from lxml import etree

# 1.对验证码图片进行捕获和识别。
url = ‘http://www.renren.com/SysHome.do’
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.63’
}
page_text = requests.get(url=url,headers=headers).text
# 从page_text中获取验证码图片
tree = etree.HTML(page_text)
code_img_src = tree.xpath(‘此处放验证码img标签的xpath’)
# 通过验证码的url获取将验证码图片保存到本地
code_img_data = requests.get(url=code_img_src,headers=headers).content
with open(‘./code.jpg’,’wb’) as f:
f.write(code_img_data)

# 通过云打码提供的示例代码对验证码图片进行识别。
# result = getCodeText(‘code.jpg’,2004)

# post请求的发送(模拟登陆)
login_url = ‘点击登陆之后通过抓包工具获取的login的那个包所对应的url’
data = {
# 将该login包中的所有参数复制进去
# 并且将里面的’icode’ 值改为 result

}
response = requests.post(url=login_url,headers=headers,data=data)
print(response.status_code) # 如果打印的是200 说明post请求成功 也说明模拟登陆成功

# 爬取当前用户个人主页对应的数据;
detail_url = “登陆之后的页面url”
detail_page_text = requests.get(url=detail_url,headers=headers).text
with open(‘yonghu.html’,’w’,encoding=’utf-8′) as f:
f.write(detail_page_text)

# 我们会发现该用户yonghu.html访问以后是登录时的界面,而不是我们想看到的用户主页详情页的界面。

通过上述操作,我们会发现该用户yonghu.html访问以后是登录时的界面,而不是我们想看到的用户主页详情页的界面。

分析原因:
http/https协议的特性:无状态。
可以这样理解:我们一共发了两次请求,第二次请求访问用户的详情页,我们是为了让服务器知道我们是在登录之后进行的用户主页的访问。但是,服务器端不保留用户状态,因此第二次发起请求时,服务器端并不知道我们是在基于用户登录的条件下进行第二次主页的访问。所以导致上述操作不会看到用户的详情页信息,而是登录时的界面。
再进行概括一下:
发起的第二次基于个人主页页面请求的时候,服务器端并不知道该次请求是基于登录状态下的请求。

这就引入了cookie!
cookie的作用:由服务器端所创建保存在客户端,用来让服务器端记录客户端的相关状态!

我们可以通过在访问用户主页的详情页时,带上用户的cookie来实现!

1.手动cookie处理方式(不建议):%title插图%num

通过抓包工具获得cookie值,将该值封装到headers中。
比较麻烦,且有的网站的cookie会有时长或者是动态变化的

2.自动处理方式:
cookie值的来源是哪里?
进行模拟登陆post请求后,由服务器端创建的并返回给用户端的。

session会话对象:
作用:
1.可以进行请求的发送,类似于我们requests的get和post;
2.如果请求过程中产生了cookie,则该cookie会被自动存储或携带在该session对象中。

现在cookie在session中,第二次发get请求时,可不可以使用session对象呢?

实现:

创建一个session对象:session = requests.Session()
使用session对象进行模拟登陆post请求的发送(cookie就会被存储在session中)
session对象对个人主页对应的get请求进行发送(携带了cookie)
先创建session对象,然后把里面的所有requests 换成 session

*终代码:
# -*- coding = utf-8 -*-
# @Time :2021/4/419:58
# @Author : LvXin
# @File: 爬取人人网当前用户的个人详情页数据.py
# @Software: PyCharm

import requests
from lxml import etree

# 创建一个session对象
session = requests.Session()

# 1.对验证码图片进行捕获和识别。
url = ‘http://www.renren.com/SysHome.do’
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.63’
}
page_text = requests.get(url=url,headers=headers).text
# 从page_text中获取验证码图片
tree = etree.HTML(page_text)
code_img_src = tree.xpath(‘此处放验证码img标签的xpath’)
# 通过验证码的url获取将验证码图片保存到本地
code_img_data = requests.get(url=code_img_src,headers=headers).content
with open(‘./code.jpg’,’wb’) as f:
f.write(code_img_data)

# 通过云打码提供的示例代码对验证码图片进行识别。
# result = getCodeText(‘code.jpg’,2004)

# post请求的发送(模拟登陆)
login_url = ‘点击登陆之后通过抓包工具获取的login的那个包所对应的url’
data = {
# 将该login包中的所有参数复制进去
# 并且将里面的’icode’ 值改为 result

}
# 使用session进行post请求的发送
response = session.post(url=login_url,headers=headers,data=data)
print(response.status_code) # 如果打印的是200 说明post请求成功 也说明模拟登陆成功

# 爬取当前用户个人主页对应的数据;
detail_url = “登陆之后的页面url”

# 使用携带了cookie的session对象进行get请求的发送
detail_page_text = session.get(url=detail_url,headers=headers).text
with open(‘yonghu.html’,’w’,encoding=’utf-8′) as f:
f.write(detail_page_text)

# 我们会发现该用户yonghu.html访问以后是登录时的界面,而不是我们想看到的用户主页详情页的界面。
# 1.手动cookie处理
# headers={
# ‘Cookie’:’xxxx 从浏览器的抓包工具中获得’
# }