当前位置: 首页 > news >正文

【nlp】文本处理的基本方法

文本处理的基本方法

  • 1 什么是分词
  • 2 什么是命名实体识别
  • 3 什么是词性标准

1 什么是分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

举个例子:

上海海事大学是一个以航运、物流、海洋为特色的安全管理高校['上海', '海事', '大学', '是', '一个', '以', '航运', '、', '物流', '、', '海洋', '为', '特色', '的', '安全', '管理', '高校']
  • 分词的作用:
    词作为语言语义理解的最小单元,是人类理解文本语言的基础。因此也是A解决NLP领域高阶任务,如自动问答,机器翻译,文本生成的重要基础环节。

  • 流行中文分词工具jieba:
    愿景:“结巴”中文分词,做最好的 Python 中文分词组件。jiieba的特性:

  • 支持多种分词模式

    • 精确模式
    • 全模式
    • 搜索引擎模式
  • 支持中文繁体分词

    <
http://www.lryc.cn/news/224862.html

相关文章:

  • C++17 std::filesystem
  • JVM在线分析-解决问题的工具一(jinfo,jmap,jstack)
  • [深度学习]不平衡样本的loss
  • 【MySQL】表的增删改查(强化)
  • MyBatis-Plus--在xml中使用wrapper的方法
  • Oracle RAC是啥?
  • springboot中定时任务cron不生效,fixedRate指定间隔失效,只执行一次的问题
  • 苹果手机发热发烫是什么原因?看完这篇你就知道了!
  • 民安智库(第三方满意度调研公司):助力健身房提升客户满意度的秘密武器
  • 2011年09月01日 Go生态洞察:Go语言词法扫描与App Engine演示
  • pytorch搭建squeezenet网络的整套工程(升级版)
  • 222. 完全二叉树的节点个数
  • adb and 软件架构笔记
  • 算术运算符、自增自减运算符、赋值运算符、关系运算符、逻辑运算符、三元运算符
  • k8s 配置资源管理
  • expo + react native项目隐藏状态栏踩坑
  • 若依:用sqlite3随便掰饬掰饬
  • 刚安装的MySQL使用Navicat操作数据库遇到的问题
  • 物奇平台耳机宕机恢复功能实现
  • 前端学习地址_备忘录(随时更新)
  • 安卓数据恢复工具哪个强? 10 个最佳 Android 数据恢复应用程序
  • 在IDEA中配置Web开发环境
  • Cesium 相机设置
  • 【虹科干货】TWAMP:什么是双向主动测量协议?
  • bool型的盲注
  • 聊聊logback的ShutdownHook
  • 【第2章 Node.js基础】2.4 Node.js 全局对象...持续更新
  • 大数据毕业设计选题推荐-河长制大数据监测平台-Hadoop-Spark-Hive
  • Unity与java后端UDP通信
  • vue3 - swiper插件 实现PC端的 视频滑动功能(仿抖音短视频)