当前位置: 首页 > news >正文

Scrapy爬虫在新闻数据提取中的应用

Scrapy是一个强大的爬虫框架,广泛用于从网站上提取结构化数据。下面这段代码是Scrapy爬虫的一个例子,用于从新闻网站上提取和分组新闻数据。

使用场景

在新闻分析和内容聚合的场景中,收集和组织新闻数据是常见需求。例如,如果我们需要为用户提供按日期分类的新闻更新,或者我们想分析特定时间段内的新闻趋势,这段代码就非常适合。

页面截图

在这里插入图片描述

结构截图

在这里插入图片描述

代码注释解释
# Scrapy爬虫的parse方法,用于处理响应并提取信息
def parse(self, resp, **kwargs):grouped_news_items = []  # 存储所有分组的新闻条目children = resp.xpath('//div[@class="news-list"]/*')  # 获取新闻列表中的所有子元素current_group = []  # 当前日期下的新闻条目集合current_date = None  # 当前新闻条目的日期# 遍历新闻列表中的每个子元素for child in children:# 如果子元素是日期标签,更新current_date并将之前的新闻组添加到grouped_news_itemsif 'news-date' in child.xpath('@class').get(''):if current_group:grouped_news_items.append((current_date, current_group))current_group = []current_date = child.xpath('normalize-space(text())').get()# 如果子元素是新闻条目,提取相关信息并添加到current_groupelif 'news-item' in child.xpath('@class').get(''):news_info = {'title': child.xpath('./div/h2/a/text()').extract_first(),  # 新闻标题'link': child.xpath('./div/h2/a/@href').extract_first(),    # 新闻链接'source_name': child.xpath('./div/p/span/text()').extract()[1].strip(),  # 来源名称'source_img': child.xpath('./div/p/span/img/@data-src').extract_first()  # 来源图标}current_group.append(news_info)# 将最后一个日期的新闻条目集合添加到grouped_news_itemsif current_group:grouped_news_items.append((current_date, current_group))# 生成Scrapy Item,并通过yield返回for date, items in grouped_news_items:for item in items:an = AiNewsItem()  # Scrapy Item对象,用于存储新闻信息an['time_str'] = datean['title'] = item['title']an['source_name'] = item['source_name']an['source_img'] = item['source_img']an['link'] = item['link']yield an
http://www.lryc.cn/news/287352.html

相关文章:

  • 【服务器GPT+MJ+GPTs】创建部署GPT+MJ+GPTs程序网站
  • C语言零基础入门第2天《 visual studio下载安装教程和搭建开发环境及踩坑指南》(保姆级图文教程)
  • 分析Vue3生命周期
  • Android 13.0 Launcher3 禁止在HotSeat创建Folder文件夹功能实现
  • 大模型训练 - 华为机试真题第二题(200分)
  • 创作活动(九十三)———ChatGPT 和文心一言哪个更好用?
  • Spring 声明式事务 @Transactional(详解)【面试重点,小林出品】
  • CSS之高度塌陷和外边距塌陷
  • 基于SpringBoot Vue美食网站系统
  • 哪吒汽车与经纬恒润合作升级,中央域控+区域域控将于2024年落地
  • php学习-实战项目
  • 【项目日记(四)】第一层: 线程缓存的具体实现
  • 海思 tcpdump 移植开发详解
  • Javascript--流程控制
  • 新定义51单片机(RD8G37)实现测距测速仪
  • Unity中URP下获取每一个额外灯数据
  • 差分进化算法求解基于移动边缘计算 (MEC) 的无线区块链网络的联合挖矿决策和资源分配(提供MATLAB代码)
  • Tomcat Notes: Web Security, HTTPS In Tomcat
  • 智能小程序登陆能力开发文档及示例代码
  • 常见の算法
  • openssl3.2/test/certs - 041 - 1024-bit leaf key
  • 「创新引领未来」科东软件荣获第十二届中国创新创业大赛(广东·广州赛区)优胜奖
  • Linux下安装 Redis7
  • spire.doc合并word文档
  • 蓝桥杯官网填空题(01串的熵)
  • 【CodeTop】TOP 100 刷题 51-60
  • k8s的图形化工具---rancher
  • npm安装卡住问题(最新版)
  • 什么是线程死锁
  • Django从入门到精通(二)