当前位置: 首页 > article >正文

TomatoSCI分析日记:数据分析为什么用csv不用excel

        其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。

1.csv更干净

csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息,不会影响分析读取。当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。当然这里说的字体颜色只是一个很简单的举例,在实际应用中,你可不知道别人给你的excel埋了多少雷。

2.csv结构更简单

excel文件你建多少个工作表保存的时候就保留多少工作表,csv文件无论你有几个工作表就永远只会保留第一个工作表。很多人觉得 csv 不支持多个工作表是个限制,但在数据分析视角下,它反而是一种强制的规范化。你如果工作表之间来回引用,谁又能保证导入的时候不会出问题呢。

3.csv文件可以用记事本打开

这个点大家可以看看图2自己感受一下多有用。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。而excel文件用记事本打开是乱码的,这个问题就没办法排查了。

4.excel文件转csv文件

很多小伙伴图快直接把.xlsx后缀改为.csv后缀,用记事本打开也是乱码的(图3),这样的文件是不具备可用性的,初学者如果不注意这个问题的话倒腾一天也不知道问题出在哪里,非常浪费时间。正确的方法是在“文件”-“另存为”中导出为csv格式。

TomatoSCI欢迎大家来访!

http://www.lryc.cn/news/2398988.html

相关文章:

  • HTTP协议完全指南:从请求响应到HTTPS安全机制
  • [Java 基础]Java 语言的规范
  • SpringBoot插件化架构的4种实现方案
  • 设计模式——状态设计模式(行为型)
  • CppCon 2014 学习:Lightning Talk: Writing a Python Interpreter for Fun and Profit
  • CTFHub-RCE 命令注入-过滤运算符
  • 【音视频】H265 NALU分析
  • 运维 vm 虚拟机ip设置
  • 飞牛fnNAS存储模式RAID 5数据恢复
  • 论文笔记:DreamDiffusion
  • 户外摄像头监控如何兼顾安全实时监控
  • Neo4j 备份与恢复:原理、技术与最佳实践
  • 简单实现Ajax基础应用
  • 关于 java:3. Java 常用类库与数据结构
  • 数据挖掘顶刊《IEEE Transactions on Knowledge and Data Engineering》2025年5月研究热点都有些什么?
  • LabVIEW双光子显微镜开发
  • WordPress 6.5版本带来的新功能
  • 将材质球中的纹理属性对应的贴图保存至本地
  • Linux应用开发之网络套接字编程
  • 实现RabbitMQ多节点集群搭建
  • GLIDE论文阅读笔记与DDPM(Diffusion model)的原理推导
  • 机器学习——放回抽样
  • 前端内存泄漏:原理、检测与防范实践
  • Go的隐式接口机制
  • UE音频中间件wwise插件
  • C++.cstring string
  • Spring AOP 和 AspectJ 有什么区别
  • 报表/报告组件(二)-实例与实现解释
  • linux的实时性
  • Opencv4 c++ 自用笔记 04 图像滤波与边缘检测