当前位置: 首页 > news >正文

Python网络爬虫(五):b站弹幕

        上一篇对b站的视频评论爬取进行了探讨,这一篇是弹幕。直接上代码:

import csv
import json
import re
import chardet
import requestsheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.1.3162 SLBChan/105'}# 对爬取的页面内容进行json格式处理
def get_text(url):res = requests.get(url=url, headers=headers)res.encoding = chardet.detect(res.content)['encoding']  # 统一字符编码res = res.textdata = json.loads(res)  # json格式化return datadef get_cid(bv):url_1 = 'https://api.bilibili.com/x/player/pagelist?bvid={}'.format(bv)response = get_text(url_1)cid = response['data'][0]['cid']  # 获取cidreturn ciddef get_content_list(cid):content_list = []url = f'https://comment.bilibili.com/{cid}.xml'r2 = requests.ge
http://www.lryc.cn/news/332363.html

相关文章:

  • Docker环境安装Postgresql数据库Posrgresql 15.6
  • 当代软件专业大学生与青年在新质生产力背景下的发展探究
  • MATLAB——知识点备忘
  • C++入门(以c为基础)——学习笔记2
  • 设计模式-单例模式(懒汉式)
  • 算法| ss 回溯
  • 基于R语言绘制-散点小提琴图
  • Arduino开发 esp32cam+opencv人脸识别距离+语音提醒
  • LeNet卷积神经网络
  • Python常用算法思想--回溯算法思想详解【附源码】
  • Day5-Hive的结构和优化、数据文件存储格式
  • 01 计算机网络发展与分类
  • ubuntu安装sublime3并设置中文
  • python调用阿里云短信配置
  • MySQL 8.0.13安装配置教程
  • 【idea快捷键】idea开发java过程中常用的快捷键
  • 2024年腾讯云GPU云服务器配置价格表(内存/系统盘/地域)
  • 重构数据访问层-优化数据访问的开发
  • 云计算概述报告
  • C++:线程库的使用
  • 机器学习模型:决策树笔记
  • 20.2k stars项目搭建私人网盘界面美功能全
  • 卷积篇 | YOLOv8改进之引入全维度动态卷积ODConv | 即插即用
  • Pytorch实用教程:torch.from_numpy(X_train)和torch.from_numpy(X_train).float()的区别
  • 深度学习pytorch好用网站分享
  • C语言 | Leetcode C语言题解之第2题两数相加
  • Oracle基础
  • 从0到1实现RPC | 04 负载均衡和静态注册中心
  • 卷积神经网络-池化层
  • 【干货集】C# XmlHelper帮助类操作Xml文档的通用方法汇总