当前位置：首页 > news >正文

【大模型基础】4.1 数据挖掘（待）

news 2025/8/29 14:20:42

一、什么是文本挖掘？

文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。

二、文本挖掘的作用是什么？

能够从文本数据中获取有价值的信息和知识

三、文本预处理

3.1 中文分词

使用jieba来对文本进行分词处理，它有3类分词模式，即全模式、精确模式、搜索引擎模式：

精确模式：试图将句子最精确地切开，适合文本分析；

全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

举例：定位

查看全文

http://www.lryc.cn/news/403619.html

Jupyter Notebook与机器学习：使用Scikit-Learn构建模型

IMU提升相机清晰度

掌握SQL Server性能监控：自定义性能计数器的实现

jdk1.8 List集合Stream流式处理

leetcode位运算(1720. 解码异或后的数组)

GESP CCF C++ 八级认证真题 2024年6月

Spring Boot 单元测试什么时候需要添加 @RunWith

鸿蒙OpenHarmony Native API【HiLog】

Pycharm 和虚拟环境的那些事?

rancher2里面的containerd的使用

Python数据风险案例54——人工智能热门概念股爬虫分析其价值(三因子模型)

【HarmonyOS开发】Navigation使用

计算机网络参考模型与5G协议

docker自建rustdesk-server远程桌面

海外抖音黑屏是网络问题还是硬件问题？

为了实现接口缓存，专门写了个缓存库 f-cache-memory

actual combat 35 —— es

android R ext4 image打包脚本介绍

美式键盘 QWERTY 布局的来历

ETL数据同步之DataX，附赠一套DataX通用模板

[论文笔记] CT数据配比方法论——1、Motivation

某4G区域终端有时驻留弱信号小区分析

【体外诊断】ARM/X86+FPGA嵌入式计算机在免疫分析设备中的应用

Linux上启动和停止jar

浏览器缓存：强缓存与协商缓存实现原理有哪些？

持续集成04--Jenkins结合Gitee创建项目

一、什么是文本挖掘？

二、文本挖掘的作用是什么？

三、文本预处理

3.1 中文分词

相关文章：