当前位置：首页 > news >正文

pandas 文本数据处理

news 2025/8/31 2:22:47

文本数据处理

获取字符串长度：

需要用到函数：str.len()

例：

# 求字符串长度
# 引用 pandas
import pandas as pd
# 定义数据
data = {"姓名":["张三","李四","王五","赵六"],"描述":["喜欢编程,很有激情","擅长绘画,极具天赋啊","热爱运动,充满活力","喜欢读书,知识渊博"]
}
df = pd.DataFrame(data)# 显示长度
df['长度'] = df['描述'].str.len()
print(df)

结果：

   姓名          描述  长度
0  张三   喜欢编程,很有激情   9
1  李四  擅长绘画,极具天赋啊  10
2  王五   热爱运动,充满活力   9
3  赵六   喜欢读书,知识渊博   9

字符串分割与提取

需要使用内置函数 split()参数就是要以什么字符分割
- 使用方法：
```
要操作的数据.str.split(字符)
```
例：

import pandas as pd
data = {"地址":["上海市浦东区xxx街道10号","北京市朝阳区xxx街道32号","沈阳是铁西区xxx街道40号"]
}df = pd.DataFrame(data)# 以区为分割 
df1 = df['地址'].str.split('区')
print(df1)
# 提取出每个城市的区名
df2 = df['地址'].str.split('区').str[0].str[-2:]
print(df2)

结果：

0    [上海市浦东, xxx街道10号]
1    [北京市朝阳, xxx街道32号]
2    [沈阳是铁西, xxx街道40号]
Name: 地址, dtype: object
0    浦东
1    朝阳
2    铁西
Name: 地址, dtype: object

文本替换操作

使用内置函数 replace()

str.replace()参数1:被替换的字符参数2:要替换成什么

例：

# 文本替换
# 引用 pandas
import pandas as pd
# 定义数据
data = {'地址':['长春市宽城区新园街道学建大陆1111号']
}
# 创建 DataFrame
df = pd.DataFrame(data)# 文本替换
df = df['地址'].str.replace('学建大陆1111号','xxxxxxxxx')
print(df)

结果：

0    长春市宽城区新园街道xxxxxxxxx
Name: 地址, dtype: object

请添加图片描述

案例：

import pandas as pddata = {"电话":["13345677788",'13255667788','13999008899']
}df = pd.DataFrame(data)# 显示电话前3位数 并显示到数据表中
df['运营商'] = df['电话'].str[:3]
print(df)

结果：

            电话  运营商
0  13345677788  133
1  13255667788  132
2  13999008899  139

查看全文

http://www.lryc.cn/news/546392.html

GCC RISCV 后端 -- GCC 后端框架的一些理解

FastGPT 源码：如何实现 “问题优化“

CSS—flex布局、过渡transition属性、2D转换transform属性、3D转换transform属性

Spring Boot Gradle 项目中使用 @Slf4j 注解

FreeRTOS系列---程序正常，但任务无法创建

linux应用：errno、perror、open、fopen

安防监控/视频集中存储EasyCVR视频汇聚平台如何配置AI智能分析平台的接入？

做小程序开发的安全防护全方案

在Spring Boot项目中导出复杂对象到Excel文件

从JDBC到数据库连接池：构建高性能Java应用的基石（中篇）

JavaWeb后端基础（6）

nio多线程版本

Electron、Tauri及其它跨平台方案终极对比

蓝桥杯试题：二分查找

MongoDB Chunks核心概念与机制

决策树（Decision Tree）：机器学习中的经典算法

高频 SQL 50 题（基础版）_1084. 销售分析 III

Python-selenium启动edge打开百度

网络安全需要掌握哪些技能?

自动扶梯人员摔倒掉落识别检测数据集VOC+YOLO格式5375张2类别

中国棒球国家队征战世界棒球经典赛·棒球1号位

重生之数据结构与算法----数组链表

计算机网络常见疑问

C++07(继承)

文件上传漏洞：upload-labs靶场1-10

【Python/Pytorch】-- 创建3090Ti显卡所需环境

文本数据处理

字符串分割与提取

文本替换操作

相关文章：