当前位置: 首页 > news >正文

浅学爬虫-数据存储

在数据爬取完成后,我们需要将数据存储起来,以便于后续的分析和处理。常见的数据存储方式包括存储到CSV文件和存储到数据库。下面我们详细介绍如何实现这些存储方式。

存储到CSV

CSV(Comma-Separated Values)文件是一种常用的文本文件格式,用于存储表格数据。我们可以使用Python的内置csv模块将爬取的数据保存到CSV文件中。

示例:将数据存储到CSV文件

假设我们已经爬取了一些数据,数据结构如下:

data = [{'title': '标题1', 'description': '描述1'},{'title': '标题2', 'description': '描述2'},{'title': '标题3', 'description': '描述3'}
]

步骤1:编写存储到CSV文件的代码

import csv# 数据列表
data = [{'title': '标题1', 'description': '描述1'},{'title': '标题2', 'description': '描述2'},{'title': '标题3', 'description': '描述3'}
]# CSV文件名
csv_file = 'data.csv'# 写入数据到CSV文件
with open(csv_file, 'w', newline='', encoding='utf-8') as csvfile:fieldnames = ['title', 'description']writer = csv.DictWriter(csvfile, fieldnames=fieldnames)writer.writeheader()for row in data:writer.writerow(row)print(f"数据已保存到 {csv_file}")

代码解释:

  1. 数据结构: 定义一个包含字典列表的数据结构。
  2. CSV文件名: 定义要保存的CSV文件名。
  3. 写入数据: 使用csv.DictWriter创建一个CSV写入对象,写入数据到CSV文件中。

扩展内容:

  • 追加写入模式: 如果希望将新数据追加到现有CSV文件中,可以使用追加模式('a')打开文件。
with open(csv_file, 'a', newline='', encoding='utf-8') as csvfile:writer = csv.DictWriter(csvfile, fieldnames=fieldnames)for row in data:writer.writerow(row)
  • 读取CSV文件: 可以使用csv.DictReader读取CSV文件中的数据。
with open(csv_file, 'r', encoding='utf-8') as csvfile:reader = csv.DictReader(csvfile)for row in reader:print(row)
存储到数据库

数据库是一种高效的数据存储和管理方式。我们可以将数据存储到SQLite或其他关系数据库中。这里我们以SQLite为例,介绍如何将数据存储到数据库中。

示例:将数据存储到SQLite数据库

步骤1:安装SQLite支持库

SQLite是Python内置支持的,所以不需要额外安装。如果使用其他数据库,如MySQL或PostgreSQL,需要安装相应的库。

步骤2:编写存储到SQLite数据库的代码

import sqlite3# 数据列表
data = [{'title': '标题1', 'description': '描述1'},{'title': '标题2', 'description': '描述2'},{'title': '标题3', 'description': '描述3'}
]# 创建数据库连接
conn = sqlite3.connect('data.db')
cursor = conn.cursor()# 创建表
cursor.execute('''CREATE TABLE IF NOT EXISTS data (id INTEGER PRIMARY KEY AUTOINCREMENT,title TEXT NOT NULL,description TEXT NOT NULL)
''')# 插入数据
for row in data:cursor.execute('''INSERT INTO data (title, description)VALUES (?, ?)''', (row['title'], row['description']))# 提交事务并关闭连接
conn.commit()
conn.close()print("数据已保存到 SQLite 数据库")

代码解释:

  1. 创建数据库连接: 使用sqlite3.connect创建一个数据库连接。
  2. 创建表: 使用cursor.execute创建一个数据表。
  3. 插入数据: 使用cursor.execute将数据插入到数据库表中。
  4. 提交事务并关闭连接: 使用conn.commit提交事务,使用conn.close关闭数据库连接。

扩展内容:

  • 查询数据: 可以使用SELECT语句从数据库中查询数据。
conn = sqlite3.connect('data.db')
cursor = conn.cursor()cursor.execute('SELECT * FROM data')
rows = cursor.fetchall()
for row in rows:print(row)conn.close()
  • 更新数据: 可以使用UPDATE语句更新数据库中的数据。
conn = sqlite3.connect('data.db')
cursor = conn.cursor()cursor.execute('''UPDATE dataSET description = '新的描述'WHERE title = '标题1'
''')conn.commit()
conn.close()
  • 删除数据: 可以使用DELETE语句删除数据库中的数据。
conn = sqlite3.connect('data.db')
cursor = conn.cursor()cursor.execute('''DELETE FROM dataWHERE title = '标题3'
''')conn.commit()
conn.close()
结论

本文详细介绍了如何将爬取的数据存储到CSV文件和SQLite数据库中。这些方法将帮助我们更好地管理和分析数据。CSV文件适合于存储结构简单且不需要频繁更新的数据,而数据库则适用于需要高效查询和管理的大规模数据。在下一篇文章中,我们将探讨更多数据存储和处理的高级技术

http://www.lryc.cn/news/412615.html

相关文章:

  • 十六、maven git-快速上手(智慧云教育平台)
  • chrome/edge浏览器插件开发入门与加载使用
  • 【完美解决】 TypeError: ‘str’ object does not support item assignment
  • Android SurfaceFlinger——渲染开始帧(四十三)
  • fastadmin搜索栏实现某字段动态下拉搜索
  • .NET未来路在何方?
  • Vue开发环境搭建
  • 【数据结构初阶】详解:实现循环队列、用栈实现队列、用队列实现栈
  • 【Hot100】LeetCode—31. 下一个排列
  • 找到学习的引擎,更让你进入心流状态的高效学习
  • QItemDelegate QItemDelegate QItemDelegate
  • MySQL数据库 外键默认约束和action 基础知识【2】推荐
  • JS正则表达式学习与实践
  • Java数据结构(五)——栈和队列
  • 工具使用:nrm使用以及n模块
  • 匿名管道+进程池+命名管道
  • 【深度学习】【语音TTS】OpenVoice: Versatile Instant Voice Cloning,论文
  • 一六零、云服务器开发机配置zsh
  • [ZJCTF 2019]NiZhuanSiWei1
  • 【网络安全】副业兼职日入12k,网安人不接私活就太可惜了!
  • [STM32]HAL库实现自己的BootLoader-BootLoader与OTA-STM32CUBEMX
  • 鸿萌数据备份服务:中小型企业如何策划及实施云备份方案
  • x264 编码过程中延迟逻辑分析
  • 前端框架 element-plus 发布 2.7.8
  • 2024.8.1(前端服务器的配置以及tomcat环境的配置)
  • 使用 宝塔面板 部署 语料库php网站
  • springboot农产品报价系统-计算机毕业设计源码37300
  • 食源送系统项目的测试
  • JS解构赋值
  • 多多OJ评测系统 前端项目环境初始化 安装Vue脚手架 引入Arco Design组件