当前位置: 首页 > news >正文

pandas 文本数据处理

文本数据处理

获取字符串长度:

​ 需要用到函数:str.len()

  • 例:
# 求字符串长度
# 引用 pandas
import pandas as pd
# 定义数据
data = {"姓名":["张三","李四","王五","赵六"],"描述":["喜欢编程,很有激情","擅长绘画,极具天赋啊","热爱运动,充满活力","喜欢读书,知识渊博"]
}
df = pd.DataFrame(data)# 显示长度
df['长度'] = df['描述'].str.len()
print(df)

结果:

   姓名          描述  长度
0  张三   喜欢编程,很有激情   9
1  李四  擅长绘画,极具天赋啊  10
2  王五   热爱运动,充满活力   9
3  赵六   喜欢读书,知识渊博   9

字符串分割与提取

  • 需要使用 内置函数 split()参数就是要以什么字符分割

    • 使用方法:

      要操作的数据.str.split(字符)
      
  • 例:

import pandas as pd
data = {"地址":["上海市浦东区xxx街道10号","北京市朝阳区xxx街道32号","沈阳是铁西区xxx街道40号"]
}df = pd.DataFrame(data)# 以区为分割 
df1 = df['地址'].str.split('区')
print(df1)
# 提取出每个城市的区名
df2 = df['地址'].str.split('区').str[0].str[-2:]
print(df2)

结果:

0    [上海市浦东, xxx街道10]
1    [北京市朝阳, xxx街道32]
2    [沈阳是铁西, xxx街道40]
Name: 地址, dtype: object
0    浦东
1    朝阳
2    铁西
Name: 地址, dtype: object

文本替换操作

  • 使用内置函数 replace()
str.replace()参数1:被替换的字符参数2:要替换成什么
  • 例:

    # 文本替换
    # 引用 pandas
    import pandas as pd
    # 定义数据
    data = {'地址':['长春市宽城区新园街道学建大陆1111号']
    }
    # 创建 DataFrame
    df = pd.DataFrame(data)# 文本替换
    df = df['地址'].str.replace('学建大陆1111号','xxxxxxxxx')
    print(df)
    

    结果:

    0    长春市宽城区新园街道xxxxxxxxx
    Name: 地址, dtype: object
    

    请添加图片描述

  • 案例:

    import pandas as pddata = {"电话":["13345677788",'13255667788','13999008899']
    }df = pd.DataFrame(data)# 显示电话前3位数 并显示到数据表中
    df['运营商'] = df['电话'].str[:3]
    print(df)
    

    结果:

                电话  运营商
    0  13345677788  133
    1  13255667788  132
    2  13999008899  139
    
http://www.lryc.cn/news/546392.html

相关文章:

  • GCC RISCV 后端 -- GCC 后端框架的一些理解
  • FastGPT 源码:如何实现 “问题优化“
  • CSS—flex布局、过渡transition属性、2D转换transform属性、3D转换transform属性
  • Spring Boot Gradle 项目中使用 @Slf4j 注解
  • FreeRTOS系列---程序正常,但任务无法创建
  • linux应用:errno、perror、open、fopen
  • 物联网中的气象监测设备具备顶级功能
  • 15-YOLOV8OBB损失函数详解
  • WHAT - 前端异步事件流处理场景梳理
  • 计算机网络软考
  • 安防监控/视频集中存储EasyCVR视频汇聚平台如何配置AI智能分析平台的接入?
  • 做小程序开发的安全防护全方案
  • 在Spring Boot项目中导出复杂对象到Excel文件
  • 从JDBC到数据库连接池:构建高性能Java应用的基石(中篇)
  • JavaWeb后端基础(6)
  • nio多线程版本
  • Electron、Tauri及其它跨平台方案终极对比
  • 蓝桥杯试题:二分查找
  • MongoDB Chunks核心概念与机制
  • 决策树(Decision Tree):机器学习中的经典算法
  • 高频 SQL 50 题(基础版)_1084. 销售分析 III
  • Python-selenium启动edge打开百度
  • 网络安全需要掌握哪些技能?
  • 自动扶梯人员摔倒掉落识别检测数据集VOC+YOLO格式5375张2类别
  • 中国棒球国家队征战世界棒球经典赛·棒球1号位
  • 重生之数据结构与算法----数组链表
  • 计算机网络常见疑问
  • C++07(继承)
  • 文件上传漏洞:upload-labs靶场1-10
  • 【Python/Pytorch】-- 创建3090Ti显卡所需环境