当前位置: 首页 > news >正文

机器学习数据预处理——Word2Vec的使用

引言:

Word2Vec 是一种强大的词向量表示方法,通常通过训练神经网络来学习词汇中的词语嵌入。它可以捕捉词语之间的语义关系,对于许多自然语言处理任务,包括情感分析,都表现出色。 

代码:

重点代码:

# 将文本转换为Word2Vec向量表示
def text_to_vector(text):vector = [word2vec_model.wv[word] for word in text if word in word2vec_model.wv]return sum(vector) / len(vector) if vector else [0] * word2vec_model.vector_sizeX_train_w2v = [text_to_vector(text) for text in X_train]
X_test_w2v = [text_to_vector(text) for text in X_test]

处理后的词向量:

 

完整代码 :

import jieba
from gensim.models import Word2Vec
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score# 假设你有一个包含文本和标签的数据集
# 数据集格式:[(文本1, 标签1), (文本2, 标签2), ...]
data = [("这是一条正面的评论", 1),("这是一条负面的评论", 0),# ... 其他样本]# 分词
def chinese_word_cut(text):return list(jieba.cut(text))# 对文本进行分词处理
data_cut = [(chinese_word_cut(text), label) for text, label in data]# 划分训练集和测试集
X, y = zip(*data_cut)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练Word2Vec模型
word2vec_model = Word2Vec(sentences=X, vector_size=100, window=5, min_count=1, workers=4)# 将文本转换为Word2Vec向量表示
def text_to_vector(text):vector = [word2vec_model.wv[word] for word in text if word in word2vec_model.wv]return sum(vector) / len(vector) if vector else [0] * word2vec_model.vector_sizeX_train_w2v = [text_to_vector(text) for text in X_train]
X_test_w2v = [text_to_vector(text) for text in X_test]# 创建SVM分类器
svm_classifier = SVC(kernel='linear')# 训练模型
svm_classifier.fit(X_train_w2v, y_train)# 预测
y_pred = svm_classifier.predict(X_test_w2v)# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

注意:

这里的训练数据和预测数据只有1条,模型并不能训练。如需训练需要提供完整训练数据或提供预训练模型。
 

http://www.lryc.cn/news/227497.html

相关文章:

  • 面试算法常考题之-------逆波兰式合集
  • 独热编码和Word2Vec的区别
  • RestTemplate.postForEntity 方法进行 HTTP POST 请求
  • 盘点双11!阿里妈妈助这些品牌短视频赢增长!
  • 内网可达网段探测netspy- Mac环境
  • Liunx命令汇总
  • 自动控制原理--面试问答题
  • Word2Vec的缺点
  • vue如何解决跨域?原理?
  • Conda executable is not found 三种问题解决
  • Thinkphp8 - 连接多个数据库
  • Linux如何修改主机名(hostname)(亲测可用)
  • 银河麒麟等 Linux系统 安装 .net 3.1,net 6及更高版本的方法
  • Unity 使用INI文件存储数据或配置参数预设
  • clouldcompare工具使用
  • 在vue3中使用Element-plus的图标
  • 图扑智慧农业:农林牧数据可视化监控平台
  • js 加解密 jsencrypt(非对称加密 rsa)
  • xlua游戏热更新(lua访问C#)
  • 04-Spring中Bean的作用域
  • xlua游戏热更新(C#访问lua)
  • 【数据结构】二叉树经典例题---<你真的掌握二叉树了吗?>(第一弹)
  • 基于springboot实现桥牌计分管理系统项目【项目源码】
  • 机器学习——朴素贝叶斯
  • 【PTE-day07 文件上传2】
  • 设计模式之十一:代理模式
  • 在spring boot中调用第三方接口时重试问题
  • 记录一次多数据源配置失效的情况
  • EasyExcel导出替换列中的变量
  • 机器人规划算法——将多边形障碍物离散到地图像素点上?