当前位置: 首页 > news >正文

NLP篇1

场景:假设给你一篇文章。

目标:说白了,就是数学的分类。但是如何实现分类呢。下面将逐步一 一 分析与拆解。先把目标定好了和整体框架定好了。而不是只见树木而不见森林。

情感分类(好评、差评,中性)

整体框架:

中文分词:

常见的中文分词方法:

1、基于词典的方法:

  • 正向最大匹配法:从左到右依次取词,与词典进行匹配,找到最长匹配的词。
  • 逆向最大匹配法:从右到左依次取词,与词典进行匹配。

2、基于统计的方法:

  • 隐马尔可夫模型(HMM):通过统计词与词之间的出现频率和上下文关系来进行分词。
  • 条件随机场(CRF):考虑了更复杂的特征和上下文信息。

3、基于机器学习的方法:

  • 支持向量机(SVM):将文本转化为特征向量,通过训练分类器来进行分词。
  • NB模型、随机森林模型

4. 基于深度学习的分词方法(也更先进):近年来,深度学习在NLP领域取得了显著进展,基于深度学习的分词方法也逐渐成为研究热点。这些方法通过神经网络模型(如循环神经网络RNN、长短期记忆网络LSTM、Transformer等)学习汉字的上下文信息,进而实现分词。

  • 神经网络方法:如循环神经网络(RNN)、长短时记忆网络(LSTM)、卷积神经网络(CNN)等,能够自动学习文本的特征和模式。

http://www.lryc.cn/news/392179.html

相关文章:

  • 【一念发动便是行】念头,就是命运
  • Django + Vue 实现图片上传功能的全流程配置与详细操作指南
  • 【介绍下R-tree,什么是R-tree?】
  • 每天10个js面试题(二)
  • 深入理解【 String类】
  • Nacos 2.x 系列【20】集群部署
  • LeetCode刷题记录:(15)三角形最小路径和
  • 【大数据面试题】35 Spark 怎么做优化?
  • 2024年保安员职业资格考试题库大数据揭秘,冲刺高分!
  • 怎么搭建个人博客教程,附云主机选购指南
  • 使用Llama3/Qwen2等开源大模型,部署团队私有化Code Copilot和使用教程
  • C语言_结构体初阶(还未写完)
  • MyBatis-Plus:快速入门
  • 【高级篇】第9章 Elasticsearch 监控与故障排查
  • 【前端】上传和下载zip文件,有进度条(el-progess)
  • 2024年软件测试面试题,精选100+,附答案+文档
  • 在vue项目的.gitignore文件忽略不想要提交到git仓库的文件
  • 时序(流式)图谱数据仓库AbutionGraph功能介绍-Streaming Graph OLAM Database
  • windows实现Grafana+Loki+loki4j轻量级日志系统,告别沉重的ELK
  • 跟《经济学人》学英文:2024年06月01日这期 The side-effects of the TikTok tussle
  • Ubuntu安装PostgreSQL
  • 【HarmonyOS NEXT】鸿蒙如何让List组件不满一屏时,还要能滑动和回弹
  • JDK-SPI-服务提供者接口
  • 【docker】容器内配置环境变量
  • Java 乐观锁与悲观锁
  • python学习2-数据结构与算法-链表
  • 项目一 nfs 共享服务器 Haproxy 代理 Keepalive 高可用集群
  • TCP粘包解决方法
  • 高职人工智能专业实训课之“生成对抗网络(GAN)”
  • 【MySQL系列】隐式转换