当前位置: 首页 > news >正文

从维基百科通过关键字爬取指定文本内容

通过输入搜索的关键字,和搜索页数范围,爬出指定文本内内容并存入到txt文档。代码逐行讲解。

使用re、res、BeautifulSoup包读取,代码已测,可以运行。txt文档内容不乱码。

import re
import requests
from bs4 import BeautifulSouptitles = []                                                             #存放文档标题
urls = []                                                               #存放每个文档链接keyword = input("请输入想要查找的关键字:")                              
pagenum = input("请输入想要查找的页数:")                                        
txt_name = keyword + ":前" + pagenum + "页内容.txt"                        with open(txt_name,'w',encoding='utf-8') as f:                             # 创建txt文件f.write(txt_name + '\r')                                               # 将文件名写入f.close()# 每页内容单独爬取
for i in range(1, int(pagenum)+1):                               html = "http://www.ofweek.com/newquery.action?keywords="+keyword+"&type=1&pagenum=" + str(i)         # 根据关键词和页数生成链接resp = requests.get(html)                             # get获取数据,访问拼接后的url                                    resp.encoding = 'gb18030'                             # 读取中文时不会出现乱码content = resp.text                  # 拿到网站的数据,捕获到的网页内容给content变量# html文件解析,解析响应的文件内容,html.text 是 HTML 文档的源代码,# 'html.parser' 是解析器,用于指定如何解析 HTML 文档bs = BeautifulSoup(content,'html.parser')#每个标题都存在类名为no-pic的li标签里面for news in bs.select('div.zx-tl'): url = news.select('a')[0]['href']                     # 提取文章链接urls.append(url) title = news.select('a')[0].text                      # 提取文章标题titles.append(title)for i in range(len(urls)):                                    # 遍历每篇文章的链接resp = requests.get(urls[i])resp.encoding='gb18030'content = resp.textbs = BeautifulSoup(content,'html.parser')#文章的内容是存在类名为artical-content的div块里面page_content = bs.select('div.artical-content')[0].textwith open(txt_name,'a',encoding='utf-8') as f:            # 写入txt文件f.write("\n"+titles[i]+page_content)f.close()print("文件保存成功!")

http://www.lryc.cn/news/164053.html

相关文章:

  • pytorch代码实现之SAConv卷积
  • 一文解析-通过实例讲解 Linux 内存泄漏检测方法
  • Spring Boot常用的参数验证技巧和使用方法
  • 手机+卫星的科技狂想
  • 便捷查询中通快递,详细物流信息轻松获取
  • ARM接口编程—Interrupt(exynos 4412平台)
  • 适用于Linux的Windows子系统(PHP搭建lmap、redis、swoole环境)
  • Vue3+Ts+Vite项目(第十二篇)——echarts安装与使用,vue3项目echarts组件封装
  • hive location更新hive元数据表详解
  • 【SpringBoot】统一功能处理
  • 分布式数据库-架构真题(二十六)
  • MyWebServer开发日记-socket
  • 图书管理信息系统分析与设计
  • Charles基础使用指南
  • Android12之/proc/pid/status参数含义(一百六十五)
  • UMA 2 - Unity Multipurpose Avatar☀️三.给UMA设置默认服饰Recipes
  • uniapp-小程序登录授权框
  • Unity 性能优化Shader分析处理函数:ShaderUtil.GetShaderGlobalKeywords用法
  • 第一百四十一回 如何添加程序启动页
  • 从零开始的PICO教程(4)--- UI界面绘制与响应事件
  • IntelliJ IDEA 远程调试 Tomcat
  • 谷粒商城----认证服务
  • Mediasoup源码介绍
  • GIS入门,WKT格式详解
  • Qt之postEvent
  • 1976~2020年青藏高原典型冰川及冰湖遥感监测数据集
  • 时序预测 | MATLAB实现LSSVM最小二乘支持向量机时间序列预测未来
  • windows10 使用WSL2安装原生docker
  • jupylab pandas按条件批量处理xls数据
  • RJ45水晶头网线顺序出错排查