当前位置：首页 > news >正文

【0基础学爬虫】爬虫基础之文件存储

news 2025/7/24 4:56:30

大数据时代，各行各业对数据采集的需求日益增多，网络爬虫的运用也更为广泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章，为实现从易到难全方位覆盖，特设【0基础学爬虫】专栏，帮助小白快速入门爬虫，本期为文件存储。

概述

前几期文章中我们已经了解到了请求库、解析库的使用，已经学会了如何向目标网站发送请求以及解析响应信息，那么我们还需要知道如何将数据进行存储。数据存储有很多方式，本期会介绍如何将数据存入文本文件，如 TXT、JSON、CSV 等。

TXT 文件存储

介绍

TXT文件存储是最基本的数据存储方式，TXT 文本文件基本上兼容任何平台，因此它的应用也非常广泛。使用代码操作 TXT 文件十分简单，但是缺点也非常明显，不利于对数据进行检索。

使用

Python 中操作 TXT 文件需要使用到内置的 open() 函数。

open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)

open() 函数有七个参数分别为：

file：文件路径

mode：打开方式，默认为（r）只读模式

buffering：文件缓冲

encoding：字符编码

errors：报错级别

newline：换行模式，默认以\n换行

closefd：控制在关闭文件时是否彻底关闭文件

文件打开方式分为以下几种：

r：以只读方式打开文件

w：以写入方式打开文件。如果文件存在则覆盖原文件，不存在则新建。

x：创建新文件并以写入方式打开文件

a：以追加方式打开文件。如果文件存在，则在结尾位置写入，不存在则新建。

b：二进制模式

t：文本模式

+：读取与写入

wb：以二进制写入方式打开文件。如果文件存在则覆盖原文件，不存在则新建。

w+：以读写方式打开文件。如果文件存在则覆盖原文件，不存在则新建。

wb+：以二进制读写方式打开文件。如果文件存在则覆盖原文件，不存在则新建。

ab：以二进制追加方式打开文件。如果文件存在，则在结尾位置写入，不存在则新建。

ab+：以二进制追加读写方式打开文件。如果文件存在，则在结尾位置写入，不存在则新建。

f = open('data.txt','r',encoding="utf-8")
f.seek(2) #从指定下标位置开始读取
data = f.read()
f.close()

f = open('data.txt','w',encoding="utf-8")
f.write('hello')
f.write(' ')
f.write('world')
f.close()
#hello world

上下文管理器

上文中可以看到，对一个文件进行读写操作后需要使用 close() 方法关闭文件。如果不使用 close() 关闭文件会导致资源泄露问题。为了避免这个问题和优化代码，我们可以使用上下文管理器来操作文件。

with open('data.txt','w',encoding='uutf-8')as f:f.write('hello')f.write(' ')f.write('world')

当 with 语句块结束后文件会自动关闭，这样不需要再调用 close() 方法。

JSON 文件存储

介绍

JSON 全称为 JavaScript Object Notation，也就是 JavaScript 对象标记，是一种轻量级的数据交换格式。人们可以很容易的对 JSON 格式的数据进行阅读和编写，同时也方便了机器进行解析和生成。JSON 采用完全独立于程序语言的文本格式，但是也使用了类 C 语言的习惯（包括C, C++, C#, Java, JavaScript, Perl, Python等）。这些特性使 JSON 成为理想的数据交换语言。

JSON 通过对象和数组的组合来表示数据，而在 JavaScript 中，一切皆为对象，因此任何数据类型都可以通过 JSON 来表示。

在 JavaScript 中 JSON 通常以对象或数组的形式存在。对象形式为被花括号包裹的键值对结构，如 { key1 : value1, key2 : value2 }，key表示对象的属性，value表示对象的值。数组形式与对象形式的区别就在于它是被方括号所包裹，如[{ key1 : value1}, {key2 : value2}]。对象形式与数组形式可以自由组合，任意嵌套。JSON中字符串类型的数据需要以双引号包围。

JSON 的这种结构非常简洁清晰，且结构化程度很高，因而被广泛使用。

使用

JSON 是一个数据格式，本质上是纯字符串类型，在 Python 中它可以被转换为对应的数据类型，如对象形式可以被转换为字典，数组类型可以转换为列表。Python 中内置了一个强大的 JSON 库，通过它可以简便的实现 JSON 文件的读写操作。

JSON 库提高了四个方法：

json.dump()：将 JSON 对象写入文件

json.dumps()：将Python对象编码成 JSON 字符串

json.load()：从 JSON 文件中读取数据

json.loads()：将已编码的 JSON 字符串解码为Python对象

下面我们以这段数据作为示例：

{"1001": {"name": "张三","age": 21,"gender": "female"},"1002": {"name": "李四","age": 22,"gender": "male"}
}

读取数据

data.json 文件内容为示例 JSON 数据。

with open('data.json','r',encoding='utf-8')as f:data = f.read()print(type(data))
#输出：<class 'str'>

可以看到，我们直接从 JSON 文件里面读取的数据是字符串类型，这不利于我们对它进行操作，我们可以使用 json.loads() 方法将 JSON 字符串转换为字典类型。

import jsonwith open('data.json','r',encoding='utf-8')as f:data = f.read()print(type(data))
data = json.loads(data)
print(type(data))
#输出：
#<class 'str'>
#<class 'dict'>

我们也可以使用更加简洁的写法，通过 json.load() ，直接对文件操作对象进行解析。

import jsondata = json.load(open('data.json',encoding='utf-8'))print(type(data))
#输出：<class 'dict'>

写入数据

使用 write() 方法写入文件时，它只能传入字符串类型的数据。因此我们需要将字典数据先转换为 JSON 字符串，可以通过 json.dumps() 方法实现。

import jsondata = {"1001": {"name": "张三","age": 21,"gender": "female"},"1002": {"name": "李四","age": 22,"gender": "male"}
}print(data)
data = json.dumps(data)
print(type(data))
with open('data.json','w',encoding="utf-8")as f:f.write(data)
#输出：
#<class 'dict'>
#<class 'str'>

当然，将数据写入文件也有更加简便的方法。

import jsondata = {"1001": {"name": "张三","age": 21,"gender": "female"},"1002": {"name": "李四","age": 22,"gender": "male"}
}json.dump(data,open('data.json','w',encoding='utf-8'),indent=2,ensure_ascii=False)

CSV 文件存储

介绍

CSV 全称 Comma-Sparated Values（逗号分隔值），它以纯文本形式存储数据表格。CSV 文件是一个字符序列，它由任意数目的记录组成，记录之间以某种换行符分隔。文件的每条记录由字段和字段值组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。CSV 并不是一种单一的、明确定义的文本格式，它泛指具备以下特征的任何文件：

纯文本呢，使用某个字符集
由记录组成
每条记录被分隔符分隔为字段
每条记录都有相同的字段序列

使用

Python 中提供了一个内置的 csv 库来对 CSV 文件进行操作。

写入

import csv#writerow默认换行，因此需要通过 newline 将换行符设置为空，避免重复换行
with open('data.csv','w',encoding='utf-8',newline="") as csvfile:#delimiter：指定分隔符，默认为逗号writer = csv.writer(csvfile,delimiter = " ")#写入一行writer.writerow(['id', 'name', 'age'])writer.writerow(['1001', 'jack', 15])writer.writerow(['1002', 'marin', 22])writer.writerow(['1003', 'alex', 19])#写入多行writer.writerows([['1004', 'lucy', 23],['1005', 'john', 30]])

csv库也提供了其它的写入方法

import csvwith open('data.csv','w',encoding='utf-8',newline="") as csvfile:#字典写入对象writer = csv.DictWriter(csvfile,fieldnames=['id','name','age'])writer.writeheader()writer.writerow({'id':'1001','name':'jack','age':21})writer.writerow({'id': '1002', 'name': 'marin', 'age': 22})writer.writerows([{'id': '1003', 'name': 'lucy', 'age': 23},{'id': '1004', 'name': 'mike', 'age': 22}])

读取

import csvwith open('data.csv','r',encoding='utf-8')as csvfile:reader = csv.reader(csvfile)for row in reader:print(row)

总结

上文中讲到了 TXT、JSON、CSV 三种文件的存储方式，介绍了如何对这些文件进行读写操作。文本文件存储的优势在于简单、方便，适合存储少量信息，但想要规范的储存数据的话并不推荐使用文本文件储存。

查看全文

http://www.lryc.cn/news/56091.html

airflow源码分析-任务调度器实现分析

一文学会数组的reduce()和reduceRight()

登录校验-Filter

C C++ Java python 分别写出不同表白girlfriend的爱心动态代码实现

ThreeJS-投影、投影模糊（十七）

蓝桥杯赛前冲刺-枚举暴力和排序专题1（包含历年蓝桥杯真题和AC代码）

Github库中的Languages显示与修改

RocketMQ消息高可靠详解

【python设计模式】4、建造者模式

【全网独家】华为OD机试Golang解题 - 机智的外卖员

Sentinel滑动时间窗限流算法原理及源码解析（中）

【OpenLayers】VUE+OpenLayers+ElementUI加载WMS地图服务

linux 命名管道 mkfifo

Redis（主从复制、哨兵模式、集群）概述及部署

windows下软件包安装工具之Scoop安装与使用

九龙证券|人工智能+国产软件+智慧城市概念股火了，欧洲资管巨头大举抄底

Nacos下载安装与配置(windows)

QT学习笔记（语音识别项目）

Vulnhub:DC-4靶机

序列差分练习题--从模板到灵活运用

Xshell 连接 Ubuntu 20.04

【网口交换机：交换机KSZ9897学习-笔记-资料汇总-记录】

linux信号量及其实例

Nomogram | 盘点一下绘制列线图的几个R包！~（一）

两个数组的交集(力扣刷题)

SonarQube 10.0 (macOS, Linux, Windows) - 清洁代码 (Clean Code)

怎么统一把文件名不需要部分批量替换掉

Vue3电商项目实战-结算支付 3【05-结算-收货地址-添加、06-结算-收货地址-修改、07-结算-提交订单】

开心档之开发入门网-C++ 变量作用域

蓝易云：linux怎么关闭防火墙详细教程

概述