当前位置：首页 > news >正文

自然语言处理文本分类

news 2025/9/16 13:03:04

将文本视为特征项集合，特征项可为字、词、短语，文本表示为 $(t_1,w_1;t_2,w_2;\dots;t_n,w_n)$ 。其中 $t_n$ 表示特征项（例如一个词）， $w_n$ 表示该特征项对应的权重。

权重的表示：

筛选特征，留下有用的，影响大的特征

朴素贝叶斯（生成式模型）
- 假设特征独立： $P(X|c_j)\approx\prod_{k=1}^nP(w_k|c_j)$
- 决策规则： $c^*=argmax_jP(c_j)\prod_{i=1}^MP(w_i|c_j)^{N(w_i)}$
- 参数估计： $P(c_j)\approx\frac{1+N(c_j)}{C+N_{all}}$ $P(w_i∣c_j)≈ \frac{1+N（w_i,c_j）}{M+\sum_iN(w_i,c_j)}$ $其中C为类别总数，M为特征项总数，N（C_i）为类别总数，N(w_i,c_i)是w_i在c_i类别文档中出现的次数$
线性判别函数（判别式模型）： $g(x)=w^Tx+w_0$ ，通过感知器准则、LMS等学习参数。

基础指标
- 真正例（TP）、真负例（TN）、假正例（FP）、假负例（FN）
核心指标公式
| 指标 | 公式 |
|------|------|
| 精确率（P） | $P_i=\frac{TP_i}{TP_i+FP_i}$ |
| 召回率（R） | $R_i=\frac{TP_i}{TP_i+FN_i}$ |
| F1值 | $F1=\frac{2PR}{P+R}$ |
平均指标
- 宏平均：各分类指标的算术平均
- 微平均：全局统计TP、FP、FN后计算
评估曲线
- P-R曲线：调整阈值绘制精确率-召回率关系
- ROC曲线：横轴FPR，纵轴TPR，AUC越大性能越好

文本表示中TF-IDF的核心作用是什么？
- 答案：TF-IDF通过词频（TF）和逆文档频率（IDF）结合，衡量词在文档中的重要性。TF反映词在当前文档的出现频率，IDF降低常见词权重，提升稀有词权重，使模型更关注区分性特征，如“计算机”在教育类文档中因IDF高更具代表性。
特征选择中信息增益与互信息的区别是什么？
- 答案：信息增益（IG）衡量特征对分类系统的信息增量，考虑特征出现和不出现的情况；互信息（MI）仅衡量特征与类别的相关性，不考虑特征不出现时的影响。IG公式为 $IG(t_i)=H(C)-H(C|T_i)$ ，MI为 $MI(t_i,c_j)=log\frac{P(t_i,c_j)}{P(t_i)P(c_j)}$ ，IG更全面，MI更侧重相关性强度。
朴素贝叶斯分类器的“朴素”假设如何影响分类效果？
- 答案：朴素贝叶斯假设特征之间完全独立，这在实际文本中不成立，如“计算机”和“高校”高度相关。该假设简化计算，但可能导致特征间依赖关系被忽略，降低分类精度。不过在文本分类中，因词袋模型本身忽略词序，该假设在多数场景下仍有效，尤其当训练数据充足时，能通过概率估计弥补假设缺陷。