当前位置: 首页 > news >正文

Vscode Data Wrangler 数据查看和处理工具

0、简介

Data Wrangler 是一款以代码为中心的数据查看和清理工具,它集成在 VS Code 和 VS Code Jupyter Notebooks 中。它提供了一个丰富的用户界面,用于查看和分析你的数据,显示富有洞察力的列统计信息和可视化,并在你清理和转换数据时自动生成 Pandas 代码。

  • 可视化界面,便于查看和分析
  • 丰富的列统计信息
  • 自动生成处理数据的代码

1、安装和设置 Data Wrangler

  1. 安装python(支持3.8以上版本)
  2. 安装VScode
  3. 安装 Data Wrangler 扩展

2、使用 Data Wrangler

无论何时你使用 Data Wrangler,你都处于一个沙盒环境中,这意味着你可以安全地探索和转换数据。原始数据集在你明确导出更改之前不会被修改

2.1 从 Jupyter Notebook 启动 Data Wrangler

在这里插入图片描述
有三种方法可以从你的 Jupyter Notebook 启动 Data Wrangler

  1. Jupyter > 变量面板中,在任何受支持的数据对象旁边,你都可以看到一个用于启动 Data Wrangler 的按钮。
  2. 在运行输出Pandas 数据框的代码后,在单元格底部看到一个在 Data Wrangler 中打开 ‘df’ 按钮。包括 1) df.head(), 2) df.tail(), 3) display(df), 4) print(df), 5) df 等代码。
  3. 在笔记本工具栏中,选择查看数据会弹出一个列表,其中包含笔记本中所有受支持的数据对象。然后你可以选择该列表中你希望在 Data Wrangler 中打开的变量。

2.2 直接打开表格文件启动 Data Wrangler

直接从本地文件(例如 .csv 文件)启动 Data Wrangler。在文件资源管理器视图中,右键单击该文件,然后点击在 Data Wrangler 中打开。支持文件类型包括 .csv/.tsv/.xls/.xlsx/.parquet

在这里插入图片描述

3、查看数据

Data Wrangler 在处理数据时有两种模式。

  1. 查看模式:查看模式优化了界面,使你能够快速查看、筛选和排序数据。此模式非常适合对数据集进行初步探索。
  2. 编辑模式:编辑模式优化了界面,使你能够对数据集应用转换、清理或修改。当你在界面中应用这些转换时,Data Wrangler 会自动生成相关的 Pandas 代码,这些代码可以导出回你的笔记本以供重用。

3.1 查看模式界面

在这里插入图片描述

  1. 数据摘要:显示数据集整体统计信息,包括数据形状、行、列、缺少值等;
  2. 数据筛选和排序;
  3. 模式切换:查看模型和编辑模式切换;
  4. 快速洞察:快速查看每列有价值信息的地方。根据列的数据类型,快速洞察会显示数据的分布、数据点的频率、缺失值和唯一值
  5. 数据网格:提供一个可滚动窗格,查看整个数据集。

3.2 编辑模式界面

在这里插入图片描述
切换到编辑模式会启用 Data Wrangler 中的额外功能和用户界面元素。

  1. 操作面板:所有内置数据操作的地方,包括查找和替换、格式、公式、架构、排序和筛选、数值等;
  2. 清理步骤面板:显示了已应用的所有操作的列表。它使用户能够撤消特定操作或编辑最新操作。选择一个步骤将突出显示数据差异视图中的更改,并显示与该操作相关的生成代码。
  3. 导出菜单:将代码导出到 Jupyter Notebook 或将数据导出到新文件。
  4. 数据差异视图:显示对数据所做的更改。
  5. 代码预览部分:显示在选择操作时生成的 Python 和 Pandas 代码,也可以编辑生成的代码,此时数据网格将突出显示对数据的影响。

4、数据操作

操作描述
排序按升序或降序排序一列或多列
筛选根据一个或多个条件筛选行
计算文本长度创建新列,其值等于文本列中每个字符串值的长度
独热编码将分类数据拆分为每个类别的新列
多标签二值化使用分隔符将分类数据拆分为每个类别的新列
从公式创建列使用自定义 Python 公式创建列
更改列类型更改列的数据类型
删除列删除一列或多列
选择列选择要保留的一列或多列,并删除其余列
重命名列重命名一列或多列
克隆列创建一列或多列的副本
删除缺失值删除包含缺失值的行
删除重复行删除在一列或多列中具有重复值的所有行
填充缺失值用新值替换包含缺失值的单元格
查找并替换用匹配模式替换单元格
按列分组并聚合按列分组并聚合结果
去除空白字符去除文本开头和结尾的空白字符
拆分文本根据用户定义的分隔符将一列拆分为多列
首字母大写将第一个字符转换为大写,其余转换为小写
将文本转换为小写将文本转换为小写
将文本转换为大写将文本转换为大写
通过示例进行字符串转换当你提供的示例中检测到模式时,自动执行字符串转换
通过示例进行日期时间格式化当你提供的示例中检测到模式时,自动执行日期时间格式化
通过示例创建新列当你提供的示例中检测到模式时,自动创建一列。
缩放最小值/最大值将数值列缩放到最小值和最大值之间
四舍五入将数字四舍五入到指定的小数位数
向下取整(向下舍入)将数字向下舍入到最近的整数
向上取整(向上舍入)将数字向上舍入到最近的整数
自定义操作根据示例和现有列的派生自动创建新列
http://www.lryc.cn/news/612965.html

相关文章:

  • GitHub 上 Star 数量前 20 的开源 AI 项目
  • 中国MCP市场:腾讯、阿里、百度的本土化实践
  • 医疗人效管理新标杆:盖雅工场如何赋能健康服务企业提质增效
  • Java 大视界 -- Java 大数据在智能教育在线课程互动优化与学习体验提升中的应用(386)
  • 一篇文章用大白话带初学者搞清训练集、测试集及验证集关系及场景逻辑(包清楚)
  • LLMs api价格对比平台
  • --- Eureka 服务注册发现 ---
  • 【第7话:相机模型3】自动驾驶IPM图像投影拼接技术详解及代码示例
  • TikTok Shop冷启动破局战:亚矩阵云手机打造爆款账号矩阵
  • AWS RDS自定义终端节点深度分析工具:Python脚本详解
  • 手机控制断路器:智能家居安全用电的新篇章
  • STM32HAL 快速入门(一):点灯前的准备 —— 从软件安装到硬件原理
  • 云手机存在的意义是什么?
  • 数字取证:可以恢复手机上被覆盖的数据吗?
  • 【macOS操作系统部署开源DeepSeek大模型,搭建Agent平台,构建私有化RAG知识库完整流程】
  • 如何提高云手机中数据信息的安全性?
  • Git Status 命令深度指南:洞悉仓库状态的核心艺术
  • Flutter开发 Slider组件(如音量控制)
  • C语言strncmp函数详解:安全比较字符串的实用工具
  • 使用Cloud Document Converter将飞书文档导出为markdown
  • Android渲染/合成底层原理详解
  • MySQL GROUP BY 语句详细说明
  • 《算法导论》第 9 章 - 中位数和顺序统计量
  • NAS技术在县级融媒体中心的架构设计与安全运维浅析
  • 医疗AI中GPU部署的“非对等全节点架构“方案分析(下)
  • MHA架构实战
  • 【R语言】 高清美观的 MaxEnt 刀切图(Jackknife)绘制——提升论文质量
  • Docker离线安装MinIO及数据迁移
  • 【R语言】重新绘制高清MaxEnt的单因素响应曲线图像
  • 把 apipost 的 md 文档转化成 json数据