当前位置: 首页 > news >正文

pandas:读取各类文件方法以及爬虫时json数据保存

文件的读取与写入

| 常用读文件方法 | 说明             |
| -------------- | ---------------- |
| read_csv       | 读取CSV文件      |
| read_excel     | 读取Excel文件    |
| read_html      | 读取网页HTML文件 |
| read_table     | 通用读取方法     |

| 常用写文件方法 | 说明        |
| -------------- | ----------- |
| to_csv         | 写csv文件   |
| to_excel       | 写Excel文件 |

1、读取文件常用的参数


pandas.read_csv(
    filepath_or_buffer=None,
    sep=',',
    delimiter=None,
    header=None,
    names=None,
    index_col=None,
    usecols=None,
    skiprows=None,
    na_values=None,
    nrows=None,
    chunksize=None,
    encoding=None,
):
 

| 参数               | 说明                                                         |
| ------------------ | ------------------------------------------------------------ |
| filepath_or_buffer | 读取文件的路径或对象                                         |
| sep/delimiter      | 输出文件的字段分隔符, 默认字符","                            |
| header             | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |
| names              | 自定义列名/列索引                                            |
| index_col          | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |
| usecols            | 只读取选中的列                                               |
| skiprows           | 跳过行读取                                                   |
| na_values          | 个性化数据,将指定的数据变为缺失值NaN                         |
| nrows              | 数据按指定行显示                                             |
| chunksize          | 数据按指定行进行分块                                         |
| encoding           | 设置编码格式                                                 |

注意事项:

1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的

 2、写入文件参数

```
df.to_csv(
    path_or_buf=None,
    sep=',',
    columns=None,
    header=True,
    index_lable=None,
    index=True,
    encoding=None,)
```

| 参数        | 说明                               |
| ----------- | ---------------------------------- |
| path_or_buf | 写入文件的路径或对象               |
| sep         | 输出文件的字段分隔符, 默认字符","  |
| columns     | 空值写入后的顺序,也可选列写入      |
| header      | 布尔值,默认为True,写入列名称(索引) |
| index_label | 选择列作为 行索引                  |
| index       | 布尔值,默认为True,写入行名称(索引) |
| encoding    | 设置写入的编码格式                 |

excel表格读取写入特点

所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点

1、写入excel文件需要依赖模块-openpyxl

```python
安装: pip install openpyxl
```

2、读取excel文件需要依赖模块-xlrd

```
安装: pip install xlrd


df.to_excel(
        excel_writer,
        sheet_name="Sheet1",
        columns=None,
        header=True,
        index=True,
        index_label=None,
        encoding=None,
    )
```

| 特有的参数   | 说明                |
| ------------ | ------------------- |
| excel_writer | ExcelWriter目标路径 |
| sheet_name   | excel工作表名命名   |

- read_excel


pandas.read_excel(
    io,
    sheet_name=0,
    header=0,
    names=None,
    index_col=None,
    usecols=None,
    skiprows=None,
    nrows=None,
    na_values=None,
)
```

| 特有的参数 | 说明                                                         |
| ---------- | ------------------------------------------------------------ |
| io         | excel路径                                                    |
| sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |

当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存

http://www.lryc.cn/news/438595.html

相关文章:

  • 二、(JS)JS中常见的键盘事件
  • 【CSS】样式水平垂直居中
  • 深入理解数据分析的使用流程:从数据准备到洞察挖掘
  • CSS 响应式设计(补充)——WEB开发系列36
  • Qt常用控件——QDateTimeEdit
  • 什么是上拉,下拉?
  • 76-mysql的聚集索引和非聚集索引区别
  • 每日一题——第八十八题
  • 【创作活动】学习使用哪个编程工具让你的工作效率翻倍?
  • 基于STM32C8T6的CubeMX:HAL库点亮LED
  • 职业院校数据科学与大数据技术专业人工智能实训室建设方案
  • JavaScript网页设计案例分析
  • 2024.9.15周报
  • QT模型视图结构1
  • Ubuntu20+Noetic+cartographer_ros编译部署
  • linux-L3-linux 复制文件
  • Kotlin:1.9.0 的新特性
  • golang实现从服务器下载文件到本地指定目录
  • C++数据结构-树的概念及分类介绍(基础篇)
  • 职场 Death Note
  • Vue3.0组合式API:computed计算属性、watch监听器、watchEffect高级监听器
  • RAII 与 std::lock_guard 在 C++ 中的应用:自动化互斥锁管理与线程安全
  • 风格汇:奢华风格在UI设计中如何被定义的。
  • Vue2 qrcode+html2canvas 实现二维码的生成和保存
  • GEE 教程:利用Google Dynamic数据进行逐月指定区域的土地分类数据提取分析
  • Nginx 负载均衡:优化网站性能与可扩展性的利器
  • 【Python基础】Python错误和异常处理(详细实例)
  • 如何查看串口被哪个程序占用?截止目前最方便的方法
  • 深入理解SpringBoot(一)----SpringBoot的启动流程分析
  • MySql基础-单表操作