当前位置: 首页 > news >正文

python爬虫top250电影数据

之前看到的,我改了一下,多了很多东西
在这里插入图片描述

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
from openpyxl.styles import Font
import redef extract_movie_info(info):# 使用正则表达式提取信息pattern = re.compile(r'导演: (.*?)\s*主演: (.*?)\s*(\d{4})\s*/\s*(.*?)\s*/\s*(.*)')match = pattern.match(info)if match:director = match.group(1).strip()actors = match.group(2).strip()year = match.group(3).strip()country = match.group(4).strip()genre = match.group(5).strip()return director, actors, year, country, genreelse:return Nonedef douban_top250():url = 'https://movie.douban.com/top250'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.79'}movies = []for start_num in range(0, 250, 25):page_url = f'{url}?start={start_num}'response = requests.get(page_url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')for movie in soup.select('.item'):title = movie.select_one('.title').text.strip()rating = movie.select_one('.rating_num').text.strip()# 获取导演、主演和其他信息info = movie.select_one('p').text.strip()movie_info = extract_movie_info(info)if movie_info:director, actors, year, country, genre = movie_infomovies.append((title, rating, director, actors, year, country, genre))return moviesdef create_excel(movies):wb = Workbook()ws = wb.activetitle_font = Font(color='FF0000', bold=True)ws.append(['电影名称', '评分', '导演', '主演', '年份', '国家', '类型'])for cell in ws[1]:cell.font = title_fontfor movie in movies:ws.append(movie)wb.save('豆瓣_top250.xlsx')if __name__ == '__main__':movies = douban_top250()create_excel(movies)print('Excel文件已生成。')
http://www.lryc.cn/news/228631.html

相关文章:

  • STL简介+浅浅了解string——“C++”
  • wpf 和winform 的区别
  • 【Apifox】国产测试工具雄起
  • PNAS | 蛋白质结构预测屈服于机器学习
  • PlayCanvas通过IFrame嵌入页面如何与canvasplay脚本通讯
  • springboot整合Redis后间歇性io.lettuce.core.RedisCommandTimeoutException
  • 基于springboot+vue的学生毕业离校信息网站
  • 基于C#+WPF编写的调用讯飞星火大模型工具
  • 科普测量开关电源输出波形的三种方法及电源波形自动化测试步骤
  • 【优化版】DOSBox及常用汇编工具的详细安装教程
  • 【Devchat 插件】创建一个GUI应用程序,使用Python进行加密和解密
  • 运行pytest时,给出警告 PytestConfigWarning: Unknown config option: result_log
  • 初始MySQL(五)(自我复制数据,合并查询,外连接,MySQL约束:主键,not null,unique,foreign key)
  • ssh秘钥登录
  • Vue3+NodeJS 接入文心一言, 发布一个 VSCode 大模型问答插件
  • VUE element组件生成的全选框如何获取值
  • 第三章:代码块
  • javaEE案例,前后端交互,计算机和用户登录
  • 安卓学习记录
  • gradle 使用记录
  • 电源基础元件
  • [RK-Linux] updateEngine工具使用以及代码分析
  • MySQL | 数据库的表的增删改查【进阶】
  • 爱剪辑如何将视频旋转90度,详细操作流程
  • 三国杀中的概率学问题3——王荣
  • Linux - 实现一个简单的 shell
  • 不同优化器的应用
  • 学习网络编程No.9【应用层协议之HTTPS】
  • PSP - 蛋白质复合物结构预测 Template Pair 特征 Mask 可视化
  • RK3568开发笔记-amixer开机设置音量异常