当前位置：首页 > news >正文

1、自然语言处理任务全流程

news 2025/9/11 18:27:08

自然语言处理黄金九步法，葵花宝典，请珍藏心间

需求分析：问题定义

1.文本分类任务

2.序列标注任务

3.文本生成任务

4.文本理解任务

5.信息抽取任务

6.文本匹配任务

7.多模态任务

一、数据获取

1、发现可用数据集

2、常用的数据集

3、哪里去寻找数据集

4、数据集成

5、生成数据

6、网络爬虫

7、数据标注

二、数据探索（Exploratory Data Analysis，EDA）

三、数据清理与预处理

四、分割数据集

五、特征工程

六、建模

七、评估

八、推理

任务的工时占比

需求分析：问题定义

问题定义决定了整个项目的成败

1.文本分类任务

Text Classification Text Categorization TC

1.情感分析应用场景

情感分析广泛应用于电商领域，通过分析用户评论帮助企业了解产品口碑。在社交媒体上，情感分析可监测品牌声誉，为品牌策略调整提供数据支持。

2.主题分析应用场景

通过主题分类管理海量文档，提供查询效率

2.序列标注任务

命名实体识别NER

3.文本生成任务

Nature Language Generation NLG

文本生成代码
机器翻译
自动摘要

4.文本理解任务

Natural Language Understanding NLU

阅读理解
自然语言推理任务 NLI

5.信息抽取任务

Information Extraction IE

关系抽取
事件抽取

6.文本匹配任务

text matching

语义相似度计算

7.多模态任务

图像描述生成

一、数据获取

人工智能是一门数据驱动的科学，数据决定我们能把这件事做的多好！

1、发现可用数据集

寻找已有的数据集
- 使用 benchmark 数据集来快速评估我们的想法
  - 使用多个小型或者中型数据集去进行超参的调整
  - 对于深度学习的模型使用超大规模的数据
收集新数据

2、常用的数据集

根据不同任务，常用的数据集如下

3、哪里去寻找数据集

https://datasetsearch.research.google.com/

The latest in Machine Learning | Papers With Code

Open Data on AWS

Kaggle: Your Machine Learning and Data Science Community

4、数据集成

把多个数据源的数据结合到一个数据存储中
生成数据一般分散的存储在不同的数据表中
- 比如：一张表存储房屋数据，一张表存储销售记录，一张表列出中介
Join 数据表

5、生成数据

GAN
数据增强

6、网络爬虫

7、数据标注

使用数据标注平台标注数据

label-studiohttps://github.com/heartexlabs/label-studio

众包团队推荐：
- 数据堂DATATANG
- 龙猫数据
- 科乐园
- MagicData

二、数据探索（Exploratory Data Analysis，EDA）

获取数据后，我们需要持续了解数据

工具：Python (Pandas, Matplotlib, Seaborn)

文本统计
停用词分析
词频分析
Ngram分析
主题分析
情感分析
NER分析
词性探索
文本复杂度分析

三、数据清理与预处理

了解数据后我们要清理掉没用的数据，修正不好的数据，补充不够的数据，构建高质量数据集

去除换行清除html标签清除链接清除空格去停用词

四、分割数据集

分割方法：独立分割、时间分割、交叉验证、蜂窝交叉验证

五、特征工程

六、建模

选择合适的模型对数据进行建模
选择模型后，要把数据格式处理成模型要求的格式
分词
标准化

七、评估

八、推理

任务的工时占比

查看全文

http://www.lryc.cn/news/573178.html

`customRef` 在实战中的使用：防抖、计算属性缓存和异步数据获取

Duende Identity Server学习之一：认证服务器及一个Oidc/OAuth认证、用于Machine 2 Machine的客户端

【C/C++】Gtest + GMock 简单使用示例

Android Studio 打 APK 包报错 Invalid keystore format 的解决方法

python web开发-Flask数据库集成

Solidity内部合约创建全解析：解锁Web3开发新姿势

分布式锁不同的拒绝策略应用场景业务上的思考

Docker简单介绍与使用以及下载对应镜像（项目前置）

AWS RDS/Aurora 开启 Database Insights 高级模式全攻略

C++11 std::thread 多线程编程详解

Python从入门到实战学习笔记（二）

如何用 eBPF 实现 Kubernetes 网络可观测性？实战指南

PowerBI HtmlContent生成表格

Spring MVC异常处理机制

Java求职者面试指南：微服务技术与源码原理深度解析

数据分析核心指标体系：从求和、计数到比较的全维度计算方法

全面深入理解加法器架构：从全加器到并行前缀优化

启动hardhat 项目，下载依赖的npm问题

GitHub Copilot快捷键

【unitrix】 3.7 类型级加一计算(Add1.rs)

AI大模型学习之基础数学：微积分-AI大模型的数学引擎

Spring Boot的自动装配和自动配置

MySQL 数据库操作完整指南

ubuntu24.4 + ros2 jazzy 安装gazebo

vue3+arcgisAPI4案例:智慧林业资源监测分析平台(附源码下载)

C++ 的设计模式

跟着AI学习C# Day29

网站并发访问量达到1万以上需要注意哪些事项

单点登录（SSO）系统

海伯森3D闪测传感器，工业检测领域的高精度利器

需求分析：问题定义

1.文本分类任务

2.序列标注任务

3.文本生成任务

4.文本理解任务

5.信息抽取任务

6.文本匹配任务

7.多模态任务

一、数据获取

1、发现可用数据集

2、常用的数据集

3、哪里去寻找数据集

4、数据集成

5、生成数据

6、网络爬虫

7、数据标注

二、数据探索（Exploratory Data Analysis，EDA）

三、数据清理与预处理

四、分割数据集

五、特征工程

六、建模

七、评估

八、推理

任务的工时占比

相关文章：