当前位置: 首页 > news >正文

【Python体验】第五天:目录搜索、数据爬虫(评论区里写作业)

文章目录

  • 目录搜索 os、shutil库
  • 数据爬虫 request、re
  • 作业:爬取案例的top250电影的关键信息(名称、类型、日期),并保存在表格中

目录搜索 os、shutil库

os 模块提供了非常丰富的方法用来处理文件和目录。
os.listdir(path):返回path指定的文件夹包含的文件或文件夹的名字的列表。
os.path 模块:获取文件的属性信息。
os.path.join(path1[, path2[, …]]):把目录和文件名合成一个路径
os.path.isdir(path) :判断路径是否为目录
os.path.isfile(path):判断路径是否为文件
shutil.move(file,target):移动文件

# 深度优先搜索文件 (目录搜索)import os # 导入os模块
import shutil # 实现移动文件的功能需要# path代表待搜索的目录路径,result存储搜索到的文件路径列表
def dfs(path, result):child_files = os.listdir(path)for child in child_files:# 使用join拼接子目录或文件的路径child = os.path.join(path, child)# 将child保存到resultresult.append(child)if os.path.isdir(child):dfs(child, result)files = []
dfs('.', files)# 遍历files
for file in files:print("find %s" %file) #打印搜索到的路径if(os.path.isfile(file) and file.endswith('.xlsx')):# 移动当前目录下的excel文件到excel目录下shutil.move(file, '.\excel')

移动前:
在这里插入图片描述
移动后:
在这里插入图片描述

数据爬虫 request、re

网页数据爬虫实现了互联网网页自动化下载与自动化解析。通过爬虫,可以下载和分析网页。

# 网络爬虫# spider.py:网页下载、链接提取、数据存储
# 查看豆瓣网top250(25页,每页25条)的电影简介地址,换行存入到txt中import requests
import reurl = "https://movie.douban.com/top250?start="
pageSize = 25
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
# 正则匹配
briefUrl = "https://movie.douban.com/subject/[0-9]+/"
txt = open("douban.txt", "a", encoding="utf-8")# 爬取10页
for page in range(0, 10):resp = requests.get(url + str(page * pageSize), headers=headers)resp.encoding = "utf-8"# print(resp.text)# 通过findall从网页中提取符合briefUrl正则规则的网址links = re.findall(briefUrl, resp.text)# 去重arr = set(links)# print(links)for l in arr:# print(l)txt.write(l + "\n")
txt.close()

在这里插入图片描述

作业:爬取案例的top250电影的关键信息(名称、类型、日期),并保存在表格中

在这里插入图片描述

http://www.lryc.cn/news/412647.html

相关文章:

  • elasticsearch性能调优方法原理与实战
  • python print 函数参数:sep 自定义分隔符,end 自定义结尾符
  • git 使用场景
  • Ubuntu22.04 Docker更换阿里云镜像
  • Windows下Rust OpenCV环境配置
  • PostgreSQL(二十三)TOAST技术
  • 文章解读与仿真程序复现思路——电力系统自动化EI\CSCD\北大核心《海上风氢系统与沿海电网能量协同优化调度》
  • MySQL update set语句中 逗号与and的区别
  • C++面试---小米
  • Java 实现 AVL树
  • CNN卷积网络实现MNIST数据集手写数字识别
  • 深入理解Java中的时间处理与时区管理
  • 虚拟机windows server创建域
  • Java 集合框架:Java 中的 Set 集合(HashSet LinkedHashSet TreeSet)特点与实现解析
  • springboot智能健康管理平台-计算机毕业设计源码57256
  • LetterBox图像预处理方法
  • C++第五篇 类和对象(下) 初始化列表
  • C#中的通信
  • CVE-2022-21663: WordPress <5.8.3 版本对象注入漏洞深入分析
  • C语言笔试题(三)
  • minio笔记之windows下安装使用
  • 代码随想录算法训练营day31 | 56. 合并区间、738.单调递增的数字
  • 利用 Python 制作图片轮播应用
  • 报表系统之Cube.js
  • 代码随想录算法训练营第45天
  • solidity合约创建
  • 队列---循环队列实现
  • 【视频讲解】后端增删改查接口有什么用?
  • 双指针hard题
  • 前端实现【 批量任务调度管理器 】demo优化