当前位置: 首页 > news >正文

one-hot-zhu案例

# 导入用于对象保存与加载的joblib
# from sklearn.externals import joblib
import joblib
# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer

def one_hot_01():
# 1 准备语料 vocabs
# vocabs = {“周杰伦”, “陈奕迅”, “王力宏”, “李宗盛”, “吴亦凡”, “鹿晗”}
vocabs = [“周杰伦”, “陈奕迅”, “王力宏”, “李宗盛”, “吴亦凡”, “鹿晗”]

# 实例一个词汇映射器对象
t = Tokenizer(num_words=None, char_level=False)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocabs)for token in vocabs:zero_list = [0]*len(vocabs)# 使用映射器转化现有文本数据, 每个词汇对应从1开始的自然数# 返回样式如: [[2]], 取出其中的数字需要使用[0][0]token_index = t.texts_to_sequences([token])[0][0] - 1zero_list[token_index] = 1print(token, "的one-hot编码为:", zero_list)# 使用joblib工具保存映射器, 以便之后使用
tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)
pass

if name == ‘main’:
one_hot_01()

http://www.lryc.cn/news/397802.html

相关文章:

  • 数据库课设---酒店管理系统(MySQL、VBNet)
  • NLP入门——前馈词袋分类模型的搭建、训练与预测
  • GD32F303RET6读取SGM58031电压值
  • Pandas实战指南:any()函数深度解析与高效应用
  • ClickHouse中PRIMARY KEY和ORDER BY关键字的关系
  • android 图片轮播
  • 进度条提示-在python程序中使用避免我误以为挂掉了
  • 【案例】python集成OCR识别工具调研
  • 第一关:Linux基础知识
  • qt 自定义信号和槽举例
  • 编程语言与数据结构的关系:深度解析与探索
  • 了解AsyncRotationController
  • 有必要找第三方软件测评公司吗?如何选择靠谱软件测评机构?
  • 物联网系统中市电电量计量方案(一)
  • 2024年热门无线领夹麦克风哪款好,麦克风品牌排行榜前十名推荐
  • IEEE顶刊“放水”?稳居1区Top,发文扩张IF稳长,CCF推荐,审稿友好!
  • 发布:PhonePrompter_PC(手机录视频提词器_电脑版)
  • shein测试开发会问些啥?
  • mysql索引优化
  • Linux文件编程(打开/创建写入读取移动光标)
  • 集成测试技术栈
  • MongoDB - 集合和文档的增删改查操作
  • 【深度学习基础】安装包报错——MAC M3-MAX芯片安装scikit-learn库报错。
  • 【chatgpt消费者偏好】是什么驱动了游客持续旅游意愿?推文分享—2024-07-08
  • torchplus
  • LeetCode之最长回文子串
  • Gradle 介绍
  • 短视频矩阵:批量发布的秘密揭秘
  • 基于 Nginx + Spring Boot + Vue + JPA 的网站安全防护指南
  • Perl词法切分器:文本解析的瑞士军刀