当前位置: 首页 > news >正文

【nlp】1.1文本处理的基本方法

文本处理的基本方法

  • 1 什么是分词
  • 2 什么是命名实体识别
  • 3 什么是词性标准

1 什么是分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

举个例子:

上海海事大学是一个以航运、物流、海洋为特色的安全管理高校['上海', '海事', '大学', '是', '一个', '以', '航运', '、', '物流', '、', '海洋', '为', '特色', '的', '安全', '管理', '高校']
  • 分词的作用:
    词作为语言语义理解的最小单元,是人类理解文本语言的基础。因此也是A解决NLP领域高阶任务,如自动问答,机器翻译,文本生成的重要基础环节。

  • 流行中文分词工具jieba:
    愿景:“结巴”中文分词,做最好的 Python 中文分词组件。jiieba的特性:

  • 支持多种分词模式

    • 精确模式
    • 全模式
    • 搜索引擎模式
  • 支持中文繁体分词

    <
http://www.lryc.cn/news/230391.html

相关文章:

  • 流量分析(信息安全铁人三项赛分区赛2-5.18)
  • 云服务器如何选?腾讯云2核2G3M云服务器88元一年!
  • 【Hello Go】初识Go语言
  • 计算机视觉:人脸识别与检测
  • 【NLP】理解 Llama2:KV 缓存、分组查询注意力、旋转嵌入等
  • ctyunos 与 openeuler
  • 跟着GPT学设计模式之工厂模式
  • VScode+python开发,多个解释器切换问题
  • c++ 经典服务器开源项目Tinywebserver如何运行
  • c++之xml的创建,增删改查
  • 【前端开发】JS Vue React中的通用递归函数
  • 【python 生成器 面试必备】yield关键字,协程必知必会系列文章--自己控制程序调度,体验做上帝的感觉 1
  • 头哥实践平台之MapReduce基础实战
  • Linux基础知识——tmux和vim
  • Java Web——TomcatWeb服务器
  • Zookeeper 命令使用和数据说明
  • 索尼RSV文件怎么恢复为MP4视频
  • pytorch-gpu(Anaconda3+cuda+cudnn)
  • 解析数据洁净之道:BI中数据清理对见解的深远影响
  • efcore反向共工程,单元测试
  • 利用IP风险画像强化金融行业网络安全防御
  • 1334. 阈值距离内邻居最少的城市
  • Live800:客服行业的发展历程及未来前景
  • exsi的安装和配置
  • 基于springboot实现校园医疗保险管理系统【项目源码】
  • Python 如何实现组合(Composite)设计模式?什么是组合设计模式?
  • 编辑器vim和编译器gcc/g++
  • linux 系统下文本编辑常用的命令
  • 3D Gaussian Splatting文件的压缩【3D高斯泼溅】
  • Spring Boot 整合xxl-job实现分布式定时任务