Python爬取英雄联盟MSI直播间弹幕并生成词云图

很开心RNG最近在英雄联盟季中赛夺冠了,特地爬取了直播间弹幕并生成词云图,大家一起开心一下,看看夺冠时大家都在说什么,需要的朋友可以参考下

一、环境准备

安装相关第三方库

pip install jieba
pip install wordcloud

二、数据准备

爬取对象：2021年5月23号，RNG夺冠直播间的弹幕信息

爬取对象路径：

方式1、根据开发者工具（F12），获取请求url、请求头、cookie等信息；
方式2：根据直播地址url，前+字符i

我们这里演示的是，采用方式2。

三、代码如下

 import requests, re import jieba, wordcloud """ # 以下是练习代码 def get_f12_barrage(url, headers, file_path): #通过f12中的，请求地址，获取弹幕数据 #:param url:  通过弹幕地址（通过开发者工具，从请求数据中获取的） #:param headers:   请求头信息 #:param file_path:  响应数据存储路径 #:return:    无返回数据 # 1、发送请求，接受响应数据 response = requests.get(url=url, headers=headers) # 2、获取响应数据 # 返回的响应可能是乱码的，需要先转成响应的编码格式 # apparent_encoding的作用：会从网页的内容中分析网页编码的方式 response.encoding = response.apparent_encoding # 3、解析响应数据 content = response.text content_list = re.findall(":(.*?)@", content) # 4、存储响应数据, ”w+格式“，即文件存在则，先清空再写，不存在则新建文件 with open(file_path, mode="w+", encoding="utf-8") as fp: for line in content_list: # 分析每一行，发现第一个字符元素不是想要的，先去除第一个字符 fp.write(line[1:] + "\n") return file_path """ # ******************8********************执行代码如下****************************************** # 算法：先爬取数据，再根据爬取的数据，生成词云图 def get_barrage(url, headers, file_path): """ 通过请求网页前面+i的弹幕地址，获取弹幕数据 :param url:  通过弹幕地址（网址前面+i） :param headers:   请求头信息 :param file_path:  响应数据存储路径 :return:    无返回数据 """ # 1、发送请求，接受响应数据 response = requests.get(url=url, headers=headers) # 2、获取响应数据 # 返回的响应可能是乱码的，需要先转成响应的编码格式 # apparent_encoding的作用：会从网页的内容中分析网页编码的方式 response.encoding = response.apparent_encoding # 3、解析响应数据 # 此时response.text可能是乱码的 content = response.text # 正则匹配响应数据，取数目标是(.*?)中的数据 content_list = re.findall("(.*?)", content) # 4、存储响应数据, ”w+格式“，即文件存在则，先清空再写，不存在则新建文件 with open(file_path, mode="w+", encoding="utf-8") as fp: for line in content_list: fp.write(line + "\n") return file_path # https://api.bilibili.com/x/v1/dm/list.so?oid=343174354 # https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23 def make_word_cloud(word_file_path): # 1、打开文件，默认是gbk格式打开，这里指定utf-8打开 with open(word_file_path, encoding="utf-8") as fp: content = fp.read()   # read方法返回的是一个字符串 # 2、利用结巴，分割词,得到的是一个列表 content_list = jieba.lcut(content) # 再用空格，拼接字符串 content_str = " ".join(content_list) # 3、设置词云图 wc_config = wordcloud.WordCloud( width=700,   # 宽度 height=500,  # 高度 background_color='black',  # 背景色 font_path='msyh.ttc',   # 找字体的配置路径C:\Windows\Fonts\微软雅黑,然后双击（出现3个），选择【常规-属性】 scale=15,   # 颜色像素 stopwords={'了', '的'},  # 词云图中过滤掉一些字眼 contour_width=5,  # 轮廓宽度 contour_color='red'  # 轮廓颜色 ) # 4、根据输入文字内容，形成一个词云图，并存储在指定路径 wc_config.generate(content_str) wc_config.to_file("e:\\reg_cloud.png-600") return word_file_path if __name__ == "__main__": """ # 从开发者工具或者抓包工具中获取url地址 f12_url = 'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23' # 从开发者工具或者抓包工具中，获取请求头信息，主要包括cookie、user-agent header = { 'cookie': 'bsource=search_baidu; _uuid=BBD44BE2-5DAA-A13A-A593-FD3A83C3929423721infoc; buvid3=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; CURRENT_FNVAL=80; blackside_state=1; rpdid=|(um|u)klum~0J\'uYkkJJkJJu; fingerprint=be684c13c90e4279aaaa3e2694da4285; buvid_fp=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; buvid_fp_plain=96D5E0EF-41D9-4A32-BE47-DFF96C44DB9F155821infoc; SESSDATA=f90082f7%2C1637884658%2C008f9%2A51; bili_jct=2f17a04a5651fb1c6579b73aeb640f7f; DedeUserID=1153205015; DedeUserID__ckMd5=b6f334f0a2d86238; sid=6vb9j9nl; bfe_id=6f285c892d9d3c1f8f020adad8bed553', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36' } # 申明存储文件的路径 f12_file_path = "e:\\RNG.txt" """ # 请求路径，是网页前面+i url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=343174354' file_path = "e:\\RNG_1.txt" # 请求头中需要包含cookie 和 user-agent，这些信息都可以用f12获取到，注意有些字符需要转义 # 为了个人信息安全，这里的cookIe加密显示 header = { 'cookie': '********', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36' } # 调用方法 get_barrage(url=url, headers=header, file_path=file_path) word_file_path = get_barrage(url=url, headers=header, file_path=file_path) make_word_cloud(word_file_path)