当前位置: 首页 > news >正文

【大模型基础】4.1 数据挖掘(待)

一、什么是文本挖掘?

文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

二、文本挖掘的作用是什么?

能够从文本数据中获取有价值的信息和知识

三、文本预处理
3.1 中文分词

使用jieba来对文本进行分词处理,它有3类分词模式,即全模式、精确模式、搜索引擎模式

精确模式:试图将句子最精确地切开,适合文本分析

全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

举例:定位

http://www.lryc.cn/news/403619.html

相关文章:

  • Jupyter Notebook与机器学习:使用Scikit-Learn构建模型
  • IMU提升相机清晰度
  • 掌握SQL Server性能监控:自定义性能计数器的实现
  • jdk1.8 List集合Stream流式处理
  • leetcode位运算(1720. 解码异或后的数组)
  • Android 性能优化之卡顿优化
  • mac电脑显示隐藏文件
  • 深度学习之基础知识整理
  • R语言学习笔记9-数据过滤-分组-融合
  • GESP CCF C++ 八级认证真题 2024年6月
  • Spring Boot 单元测试什么时候需要添加 @RunWith
  • 鸿蒙OpenHarmony Native API【HiLog】
  • Pycharm 和虚拟环境的那些事?
  • rancher2里面的containerd的使用
  • Python数据风险案例54——人工智能热门概念股爬虫分析其价值(三因子模型)
  • 【HarmonyOS开发】Navigation使用
  • 计算机网络参考模型与5G协议
  • docker自建rustdesk-server远程桌面
  • 海外抖音黑屏是网络问题还是硬件问题?
  • 为了实现接口缓存,专门写了个缓存库 f-cache-memory
  • actual combat 35 —— es
  • android R ext4 image打包脚本介绍
  • 美式键盘 QWERTY 布局的来历
  • ETL数据同步之DataX,附赠一套DataX通用模板
  • [论文笔记] CT数据配比方法论——1、Motivation
  • 某4G区域终端有时驻留弱信号小区分析
  • 【体外诊断】ARM/X86+FPGA嵌入式计算机在免疫分析设备中的应用
  • Linux上启动和停止jar
  • 浏览器缓存:强缓存与协商缓存实现原理有哪些?
  • 持续集成04--Jenkins结合Gitee创建项目