python起点网月票榜字体反爬案例

大家好,本篇文章主要讲的是python起点网月票榜字体反爬案例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览

前言:

字体反爬是什么个意思?就是网站把自己的重要数据不直接的在源代码中呈现出来,而是通过相应字体的编码,与一个字体文件(一般后缀为ttf或woff)把相应的编码转换为自己想要的数据,知道了原理,接下来开始展示才艺

1.解析过程

老规矩哈我们先进入起点月票榜f12调试,找到书名与其对应的月票数据所在,使用xpath尝试提取

 

可以看到刚刚好20条数据,接下来找月票数据:

 

这是什么鬼xpath检索出来20条数据但是数据为空,element中数据显示为未知符号,这貌似没有数据呀,这时我们观察源代码,搜索关键字font-face可以看到这种看不懂的编码,这就是前言中所说的字体的编码。

 我们接下来找字体文件数据包

 woff文件并且请求地址与这上面看到的地址一样,不过这里需要注意的是每次请求地址都不一样,文件名字也不一样,所以我们需要每爬取一次都要单独爬取一次字体加密数据,字体加密数据可以使用第三方库fonttools进行解析

我们现在拥有:

1.书名

2.月票数据的密文

3.月票数据密文对应的字体文件

2.开始敲代码

首先定义获取书名的函数get_book_name并进行测试:

 import requests from lxml import etree def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()") return name_list if __name__ == '__main__': # 设置我们通用的请求头,避免被反爬拦截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 请求网页源代码 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析书名 xml_obj = etree.HTML(str_data) print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']

2.请求月票数据密文,并进行测试:

 import re import requests from lxml import etree # 获取书名 def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()") return name_list # 获取月票加密数据 def get_yuepiao(str_data): # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据 yuepiao_list=re.findall(r'''(.*?)''',str_data) return yuepiao_list if __name__ == '__main__': # 设置我们通用的请求头,避免被反爬拦截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 请求网页源代码 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析书名 xml_obj = etree.HTML(str_data) print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手'] print(get_yuepiao(str_data))    # ['

以上就是python起点网月票榜字体反爬案例的详细内容,更多请关注0133技术站其它相关文章!

赞(0) 打赏
未经允许不得转载:0133技术站首页 » python