当前位置: 首页 > news >正文

我用AI做数据分析之数据清洗

我用AI做数据分析之数据清洗

AI与数据分析的融合效果怎样?
这里描述自己在使用AI进行数据分析(数据清洗)过程中的几个小故事:

1. 变量名的翻译

有一个项目是某医生自己收集的数据,变量名使用的是中文,分析的时候一般会变化成英文更方便一些,传统的手段需要查找变量名的中文,然后使用代码替换原来的列名,不复杂,无奈变量名较多,处理起来还是会花费不少的时间。

这种情况下,我尝试着将数据表格提交给AI,使用自然语言让它把“列名翻译成英文全称并符合python的命名方式”,效果可以说是非常不错,返回的新数据表中,正确地给出了符合要求的列名,也很效率。

2. 英文缩写改全称

另外一个项目,列名是缩写,有一些我自己都不知道什么含义,在我没有详细提供上下文的情况下,让AI把缩写改成英文全称。
AI也很好地完成了这个工作,并在对话框中解释了变量名的含义。
在这里插入图片描述

3. 纠正录入错误

在另外的一个项目中,部分的变量里面误录入了制表符-“\tyes”等,平时不太处理这种情况,一个一个检查也很繁琐,所以尝试使用AI来处理这个问题。与AI交流过程中,我并没有具体指出是什么样的录入错误,只说检查可能的录入错误,AI就能够将这些错误检查出来并进行纠正。

令人意外的是AI还检测出一个数值型数据的录入错误,这是没有专业知识,不容易发现的。

类似的情况,还有在自己收集的一些数据中,录入不统一的情况,比如有的中文“是”,有的是英文“yes”, 自然语言描述起来很容易,代码写起来就很复杂,我觉得AI也可以处理。
在这里插入图片描述
以上体验是基于豆包AI数据分析模块的体验,总体来说都属于语言相关的范畴,感觉是AI可以表现很好的环节,因为AI本身是LLM(大语言模型)。这一部分,严格说没有涉及LLM生成代码的部分,因为代码是在AI发现了问题之后,用来修改数据表使用的。
结论是在这一部分上AI的表现是相当合格的。AI的能力在逐步增强,如何改变即有的数据分析流程,让我们拭目以待,我也会通过一些具体的小例子来向大家描述AI在数据分析过程中的表现。

http://www.lryc.cn/news/539402.html

相关文章:

  • 一周学会Flask3 Python Web开发-request请求对象与url传参
  • 【ISO 14229-1:2023 UDS诊断(ECU复位0x11服务)测试用例CAPL代码全解析④】
  • 网络技术变迁:从IPv4走向IPv6
  • DeepSeek教unity------事件管理
  • 确保设备始终处于最佳运行状态,延长设备的使用寿命,保障系统的稳定运行的智慧地产开源了
  • RedisTemplate存储含有特殊字符解决
  • 28、深度学习-自学之路-NLP自然语言处理-做一个完形填空,让机器学习更多的内容程序展示
  • 【NLP 22、语言模型 language model】
  • 刚性平衡机建模
  • 【算法】双指针(上)
  • 【Linux Redis】关于用docker拉取Redis后,让虚拟机运行起来redis,并使得其可以连接到虚拟机外的navicat。
  • 用deepseek学大模型04-模型可视化与数据可视化
  • 一周学会Flask3 Python Web开发-post请求与参数获取
  • 第3章 .NETCore核心基础组件:3.1 .NET Core依赖注入
  • cs*n 网页内容转为html 加入 onenote
  • 平板作为电脑拓展屏
  • Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络
  • 关系数据库标准语言SQL
  • AI工具篇:利用DeepSeek+Kimi 辅助生成综述汇报PPT
  • 学习总结2.18
  • electron下载文件,弹窗选择下载路径,并通知下载进度
  • 【Docker】容器被停止/删除的方式及命令:全面解析与实践指南
  • 线上就医全流程医药机构接入文档接口代码-医保就医接口php-demo版本
  • 缓存三大问题及其解决方案
  • 大语言模型常用微调与基于SFT微调DeepSeek R1指南
  • LabVIEW的吞雨测控系统
  • redis基础命令
  • 基于Java+SpringBoot+Vue的前后端分离的校园闲置物品交易网站
  • K8s 证书认知(K8s Certificate Awareness)
  • 前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警(手打纯干货,通俗易懂)