当前位置: 首页 > news >正文

【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型

1 问题

通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。

from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件)
word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)

2 解决方案

(1)方案一
第一次加载后保存为能够快速加载的文件,第二次加载就能快读读取。

file_path = "word2vec/train_bio_word"
if os.path.exists(file_path):word2vec_model = KeyedVectors.load(file_path,mmap='r')
else:# 读取中文词向量模型(需要提前下载对应的词向量模型文件)word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)word2vec_model.init_sims(replace=True)word2vec_model.save(file_path)

(2)方案二
第一次加载后,只将使用到的词向量以表格的形式保存到本地,第二次读取就不需要加载全部word2vec的,只加载表格中的词向量。

file_path = "word2vec/train_vocabulary_vector.csv"
if os.path.exists(file_path):# 读取词汇-向量字典,csv转字典vocabulary_vector = dict(pd.read_csv(file_path))# 此时需要将字典中的词向量np.array型数据还原为原始类型,方便以后使用for key,value in vocabulary_vector.items():vocabulary_vector[key] = np.array(value)else:# 所有文本构建词汇表,words_cut 为分词后的list,每个元素为以空格分隔的str.vocabulary = list(set([word for item in text_data1 for word in item]))# 构建词汇-向量字典vocabulary_vector = {}for word in vocabulary:if word in word2vec_model:vocabulary_vector[word] = word2vec_model[word]# 储存词汇-向量字典,由于json文件不能很好的保存numpy词向量,故使用csv保存pd.DataFrame(vocabulary_vector).to_csv(file_path)

(3)方案三
不使用word2vec的原训练权重,使用Embedding工具库。自动下载权重文件后,高效使用。
参考:https://github.com/vzhong/embeddings
安装库

pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github
from embeddings import GloveEmbedding, FastTextEmbedding, KazumaCharEmbedding, ConcatEmbeddingg = GloveEmbedding('common_crawl_840', d_emb=300, show_progress=True)
f = FastTextEmbedding()
k = KazumaCharEmbedding()
c = ConcatEmbedding([g, f, k])
for w in ['canada', 'vancouver', 'toronto']:print('embedding {}'.format(w))print(g.emb(w))print(f.emb(w))print(k.emb(w))print(c.emb(w))
http://www.lryc.cn/news/318768.html

相关文章:

  • 前端实例:页面布局1(后端数据实现)
  • 【调参】如何为神经网络选择最合适的学习率lr-LRFinder-for-Keras
  • 【设计模式】Java 设计模式之享元模式(Flyweight)
  • 异次元发卡源码系统/荔枝发卡V3.0二次元风格发卡网全开源源码
  • 腾讯春招后端一面(八股篇)
  • “风口”上的量化大厂“绣球”抛向中低频人才
  • obdiag如何实现一键采集20+故障场景的诊断信息——《OceanBase诊断系列》之九
  • Cookie和Session的获取方法
  • 旅游市场游客满意度调查报告
  • 为什么选用python开发web?
  • C# Chart曲线控件专题
  • Spring:StopWatch
  • 考研C语言复习进阶(5)
  • [uni-app] 小程序码转为二维码, 小程序解析此码获取数据
  • 【四 (3)数据可视化之 Seaborn 常用图表及代码实现 】
  • ASP.NET-Server.HtmlEncode
  • Linux下进行JavaEE开发-安装JDK、Tomcat、MySQL
  • 视频和图像编码标准或格式的发展关系
  • 移动云行动:5.5G技术引领数字化转型
  • Git如何与Gitee连接(主) , Git的基础使用方式简述(次)
  • 使用VLC实现自动播放视频
  • KY199 查找
  • html5播放flv视频
  • 【知识简略】 简单理解SpringCloud微服务架构:服务注册发现、配置中心、限流、熔断、降级、网关路由等
  • 福派斯课堂:选择黑背犬的狗粮时需要注意哪些细节?
  • Python QT 之PySide6简单入门
  • 美团大规模KV存储挑战与架构实践
  • 计算机基础1-汇编基础
  • 六、项目进度管理
  • java操作HBase