当前位置: 首页 > news >正文

一、爬虫-爬取豆瓣电影案例

1、环境配置

        你需要一个pycharm和requests第三方库,在安装完成之后即可继续浏览。

2、操作流程

        (1)打开豆瓣电影网站,点击排行榜,点击喜剧,检查

        (2)可以看到鼠标每次下移,都会出现新的电影,所以该页面属于局部刷新,返回数据为json格式数据,得到url,并且得到type参数

        ""如何查看此处不演示,主要是不敢""

        (3)编写代码

import json
import requests
if __name__ == "__main__":get_url = "https://movie.douban.com/j/chart/top_list"get_param = {"type": "24","interval_id": "100:90","action": "",# start代表从豆瓣电影库中第120部电影获取"start": "1",# 每次请求去除的数量是limit"limit": "20",}get_headers = {'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Mobile Safari/537.36"}# 响应response = requests.get(url=get_url, params=get_param, headers=get_headers)# 获取响应数据list_data = response.json()# 持久化存储fp = open('./html/douban.json', 'w', encoding='UTF-8')json.dump(list_data, fp=fp, ensure_ascii=False)print("over")

3、爬取结果

        在运行成功之后,会得到一个json格式文件,文件目录为:

./爬虫/html/douban.json

http://www.lryc.cn/news/247980.html

相关文章:

  • 4G5G防爆执法记录仪、防爆智能安全帽赋能智慧燃气,可视化巡检巡线,安全生产管控
  • 武汉数字孪生赋能工业制造,加速推进制造业数字化转型
  • 安卓密码框、EditText
  • ROS命令行工具
  • 深入浅出 Golang 中的直接依赖和间接依赖管理
  • 深入Python元编程:了解声明与初始化定制元类
  • [传智杯初赛] 期末考试成绩
  • Linux 常用基本命令
  • 阿里云语雀频繁崩溃,有什么文档管理工具是比较稳定的?
  • 二分查找(折半查找)探究学习
  • Android : 异常记录
  • 西南科技大学电路分析基础实验A1(元件伏安特性测试 )
  • 【Java】泛型的简单使用
  • 注册Zoho Mail邮箱:优势与使用体验
  • 第十四届蓝桥杯大赛国赛模拟题C++卷1
  • 基于UDP的TFTP文件传输
  • 抵御代码重用攻击:指针认证(PAC)和分支目标识别(BTI)
  • 业务逻辑漏洞
  • Vue框架学习笔记——计算属性
  • 初识PO模式并在Selenium中简单实践
  • 读书笔记:彼得·德鲁克《认识管理》第35章 以任务和工作为中心的设计
  • 算法基础课 (一) 基础算法
  • 【Python】jieba分词基础
  • 使用jmeter对接口进行简单测试
  • 成长在于积累——https 认证失败的学习与思考
  • C语言——数字金字塔
  • 关于 typedef 的用法
  • Webshell流量分析
  • 高级IO—poll,epoll,reactor
  • 一文详解Python中常用数据类型