当前位置: 首页 > news >正文

NLP中两种不同的中文分词形式,jieba和spaCy

1. jieba分词

import jiebatext='在中国古代文化中,书法和绘画是艺术的重要表现形式。古人常说,‘文字如其人’,通过墨迹可以窥见作者的性情和气质。而画家则以笔墨搏击,表现出山川河流、花鸟虫鱼的灵动。这些艺术形式不仅仅是技艺的表现,更是一种精神的抒发和文化的传承。'words = jieba.cut(text,cut_all=False)
print(list(words))

返回结果: 

['在', '中国', '古代', '文化', '中', ',', '书法', '和', '绘画', '是', '艺术', '的', '重要', '表现形式', '。', '古人', '常说', ',', '‘', '文字', '如其人', '’', ',', '通过', '墨迹', '可以', '窥见', '作者', '的', '性情', '和', '气质', '。', '而', '画家', '则', '以', '笔墨', '搏击', ',', '表现', '出', '山川', '河流', '、', '花鸟虫鱼', '的', '灵动', '。', '这些', '艺术', '形式', '不仅仅', '是', '技艺', '的', '表现', ',', '更是', '一种', '精神', '的', '抒发', '和', '文化', '的', '传承', '。']

 2. spaCy的中文模型进行分词

import spacy_stanza
import stanza# 下载并加载 Stanza 中文模型
stanza.download('zh')
nlp = spacy_stanza.load_pipeline('zh')text='在中国古代文化中,书法和绘画是艺术的重要表现形式。古人常说,‘文字如其人’,通过墨迹可以窥见作者的性情和气质。而画家则以笔墨搏击,表现出山川河流、花鸟虫鱼的灵动。这些艺术形式不仅仅是技艺的表现,更是一种精神的抒发和文化的传承。'doc = nlp(text)
words = [token.text for token in doc]
print(words)

返回结果:

['在', '中国', '古代', '文化', '中', ',', '书法', '和', '绘画', '是', '艺术', '的', '重要', '表现', '形式', '。', '古', '人', '常', '说', ',', '‘', '文字', '如', '其', '人', '’', ',', '通过', '墨迹', '可以', '窥见', '作者', '的', '性情', '和', '气质', '。', '而', '画家', '则', '以', '笔', '墨', '搏击', ',', '表现', '出', '山川', '河流', '、', '花鸟', '虫', '鱼', '的', '灵动', '。', '这些', '艺术', '形式', '不', '仅仅', '是', '技艺', '的', '表现', ',', '更是', '一', '种', '精神', '的', '抒发', '和', '文化', '的', '传承', '。']

 

3. 分析和比较

  • 第一段分词结果

    • 每个词都单独分开,保留了原文中的每个词语。
    • 分词粒度较细,适合某些需要对每个词语进行精确处理的场合。
  • 第二段分词结果

    • 将一些词语合并成了一个词组,如 "表现形式"、"古人"、"笔墨"、"花鸟虫鱼"。
    • 分词结果更加符合语言习惯和表达习惯,一些固定搭配和成语被识别并合并成一个词组。
    • 可能更适合一些语义理解或者对上下文整体理解较为重要的应用场景。

4. 选择合适的分词结果

选择哪种分词结果取决于你的具体需求:

  • 如果需要对每个词语进行单独处理,或者进行详细的语言分析,第一段分词结果更适合。
  • 如果需要更符合日常语言使用习惯的分词结果,或者进行更高层次的语义理解,第二段分词结果可能更适合。

http://www.lryc.cn/news/382420.html

相关文章:

  • 【数据库】四、数据库编程(SQL编程)
  • 17.RedHat认证-Ansible自动化运维(下)
  • React Suspense的原理
  • React的生命周期函数详解
  • DoubleSummaryStatistics 及其相关类之-简介
  • java线程间的通信 - join 和 ThreadLocal
  • 差分GPS原理
  • 【栈与队列】前k个高频元素
  • B端产品竞品分析-总结版
  • 刷代码随想录有感(116):动态规划——单词拆分
  • CSS-0_1 CSS和层叠(样式优先级、内联样式、选择器 用户代理样式)
  • 科技赋能冷链园区:可视化带来全新体验
  • 高通安卓12-安卓系统定制2
  • 高中数学:数列-解数列不等式问题的常用放缩技巧(重难点)
  • [图解]企业应用架构模式2024新译本讲解17-活动记录1
  • [C++深入] --- malloc/free和new/delete
  • Spcok测试代码抛异常场景
  • 【漏洞复现】脸爱云一脸通智慧管理平台 SystemMng 管理用户信息泄露漏洞(XVE-2024-9382)
  • 新手如何入门Web3?
  • React.FC`<ChildComponentProps>`解释
  • 2024-06-24力扣每日一题
  • pyhon模块以及常用的第三方模块
  • shell脚本—快速修改centos网络配置
  • 线程池概念、线程池的不同创建方式、线程池的拒绝策略
  • 示例:WPF中如何绑定ContextMenu和Menu
  • 区块链小故事
  • Java | Leetcode Java题解之第167题两数之和II-输入有序数组
  • 项目训练营第三天
  • 计算机组成原理 | CPU子系统(1)基本概述
  • 无引擎游戏开发(2):最简游戏框架 | EasyX制作井字棋小游戏I