当前位置: 首页 > news >正文

知识图谱数据预处理笔记

知识图谱数据预处理笔记

  • 0. 引言
  • 1. 笔记
    • 1-1. `\`的转义
    • 1-2. 特殊符号的清理
    • 1-3. 检查结尾是否正常
    • 1-4. 检查`<>`是否存在
    • 1-5. 两端空格的清理
    • 1-6. 检查object内容长时是否以`<`开始

0. 引言

最近学习知识图谱,发现数据有很多问题,这篇笔记记录遇到的一些问题。

1. 笔记

1-1. \的转义

line = line.replace('\\', '\\\\')

1-2. 特殊符号的清理

line.replace('特殊符号', '')

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

由于特殊符号在文章上无法粘贴显示,所以采取截图的形式

1-3. 检查结尾是否正常

        for line in input_file:last_four = line[-4:]last_three = line[-3:]if last_four == '> .\n' or last_four == '" .\n':output_file1.write(line)elif last_three == '>.\n' or last_three == '".\n':output_file1.write(line)else:output_file2.write(line)

1-4. 检查<>是否存在

                if '<>' in line:output_file3.write(line)

1-5. 两端空格的清理

line = line.strip()

1-6. 检查object内容长时是否以<开始

           if len(object) > 10 and object[0] == '<':output_file3.write(line)continue

未完待续!!!

http://www.lryc.cn/news/354792.html

相关文章:

  • Unity面试八股文之基础篇
  • HTTPS能否避免流量劫持?如何实现HTTPS
  • 簡述Vue 2.0 响应式数据的原理
  • Kafka线上集群部署方案怎么做?no.6
  • vscode 的 AI 协助插件 Tabnine / Codeium
  • Flutter 中的 OutlineButton 小部件:全面指南
  • Kubernetes可视化界面之DashBoard
  • Docker学习(4):部署web项目
  • 驱动开发中引入私有数据的原因
  • 删除edge浏览器文本框储存记录值以及关闭自动填充
  • mysql事务 事务并发问题 隔离级别 以及原理
  • Android 性能为王时代SparseArray和HashMap一争高下
  • 学术图表的基本配色方法
  • 【学习笔记】Webpack5(Ⅱ)
  • oracle碎片整理
  • 民国漫画杂志《时代漫画》第15期.PDF
  • Alamofire常见GET/POST等请求方式的使用,响应直接为json
  • 三分钟一条AI小和尚视频 ,日引300+创业粉。单日变现四位数 全套工具
  • vue3中表格中通过判断某个字段来设置对应按钮和消息提示的disabled展示
  • 产品经理-交互说明撰写(八)
  • Rust:struct 与字节序列的相互转换
  • 在https的系统中挂载其他http系统的画面的解决方案
  • mysql存储比特位
  • Lua中table.sort()使用方式
  • 数组与指针声明小问题
  • 【Java】手把手学会数组的使用
  • 音视频开发9 FFmpeg 解复用框架--如何将一个影音文件(mp4文件/wav文件) 最终播放起来
  • vue实现页面渲染时候执行某需求
  • Python小游戏——俄罗斯方块
  • Moto和Inter字节序