当前位置: 首页 > news >正文

【python爬虫】—豆瓣电影Top250

豆瓣电影Top250

  • 豆瓣榜单简介
  • 需求描述
  • Python实现

豆瓣榜单简介

  • 豆瓣电影 Top 250 榜单是豆瓣网站上列出的评分最高、受观众喜爱的电影作品。这个榜单包含了一系列优秀的影片,涵盖了各种类型、不同国家和时期的电影。

需求描述

  • 使用python爬取top250电影,获取相应电影排名,电影名,星级, 打分和评论人数信息,将信息输出到Excel表格中。

Python实现

  • 获取爬取网页
def download_all_htmls(index = list(range(0, 250, 25))):htmls = []for idx in index:url = f"https://movie.douban.com/top250?start={idx}&filter="print("craw html:", url)# 豆瓣具有反爬虫机制,添加headersheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}r = requests.get(url, headers = headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)return htmls
  • 解析得到单个网页内容
def parse_single_heml(html):soup = BeautifulSoup(html, 'html.parser')article_items = soup.find('div', class_='article')\.find('ol', class_='grid_view')\.find_all('div', class_='item')datas = []for article_item in article_items:rank = article_item.find('div', class_='pic').find('em').get_text()info = article_item.find('div', class_='info')title = info.find('div', class_='hd').find('span', class_='title').get_text()stars = info.find('div', class_='bd').find('div', class_='star').find_all('span')rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({'rank': rank,'title': title,'rating_star': rating_star.replace("rating","").replace("-t",""),'rating_num': rating_num,'comments': comments.replace("人评价", "")})return datas
  • 爬取相关内容,并将结果写入Excel
import requests
from bs4 import BeautifulSoup
import pandas as pd
import pprint
import jsonhtmls = download_all_htmls()
all_datas = []
for html in htmls:all_datas.extend(parse_single_heml(html))
df = pd.DataFrame(all_datas)
df.to_excel("practice03_豆瓣电影top250.xlsx", index=False)
  • 结果展示
    在这里插入图片描述
http://www.lryc.cn/news/147879.html

相关文章:

  • 【跟小嘉学 Rust 编程】十五、智能指针
  • Python爬虫基础之正则表达式
  • 【LeetCode】双指针妙解有效三角形的个数
  • mysql 计算两点之间距离
  • c语言自定义头文件是什么情况下使用?一般在什么情况下引用自定义的头文件?一般在自定义头文件中写什么代码?
  • electron应用打包成功纪念一下
  • 远程办公中安全远程访问解决方案
  • StartUp启动框架-Android启动性能
  • Positive Technologies:五分之四的网络攻击具有针对性
  • clickhouse的另类表引擎
  • Uniapp新版本打包后覆盖安装,新增的页面无法跳转,需退出重新启动才可以打开的解决方案
  • 系统架构设计高级技能 · 面向服务架构设计理论与实践
  • QT注册界面练习(信号与槽实现页面跳转)
  • MySQL从入门到精通【进阶篇】之 主从复制详解
  • vue使用qrcodejs2生成二维码
  • python注释
  • update-alternatives详解
  • JavaScript 编写更好的条件语句
  • 聊聊PBE算法
  • 用MFC打开外部程序
  • 基于全新电脑环境安装pytorch的GPU版本
  • [当前就业]2023年8月25日-计算机视觉就业现状分析
  • 虚拟化技术原理
  • opencv-答题卡识别判卷
  • 【Linux】基础IO
  • 【Go 基础篇】深入探索:Go语言中的二维数组
  • IntelliJ IDEA 2023.2.1使用Git时弹出“使用访问令牌登录”问题解决
  • 前端开发学习路线
  • 1、英飞凌-AURIX-TC297简介
  • Android 音频框架 基于android 12