当前位置: 首页 > news >正文

LangChain上使用huggingface的embedding模型(如jina-embeddings-v3)

一、背景知识

embedding将文本映射到稠密的向量空间中,方便存储和查询。
huggingface的embedding榜单
这里结合自己的应用场景,选择1b以下的embedding模型,综合考量下选择arkohut/jina-embeddings-v3
模型链接

下载
在这里插入图片描述
使用模型卡片提供的命令,用cmd下载(强烈建议使用SSH命令下载!!!!用http容易报错)
在这里插入图片描述
需要使用魔法上网才能下载。如果超时的话,也可以选择手动下载。注意下载后的文件名应该和网站上提供的一样。
在这里插入图片描述

二、jina功能

论文地址:
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
在这里插入图片描述
它的创新点主要有:
1.支持的文本长度高达8192 tokens
2.可以进行Task-specific的embedding
3.检索失败时可以合成数据
4.用上了最新的技术,提高了性能

三、LangChain上部署

model_name = "E:\jina-embeddings-v3"
model_kwargs = {'device': 'cpu','trust_remote_code':True}
encode_kwargs = {'normalize_embeddings': False}
hf = HuggingFaceEmbeddings(model_name=model_name,model_kwargs=model_kwargs,encode_kwargs=encode_kwargs
)

完整代码可见
我的实战博客

http://www.lryc.cn/news/478581.html

相关文章:

  • 对象优化及右值引用优化(一)
  • 江西省技能培训平台(逆向破解登录国密SM2)
  • 用万用表测量三极管:【判断是NPN\PNP+3极性】
  • StableDiffusion系列教程 | 什么是SD?SD能做什么?有哪些应用场景?
  • AutoCAD的Dwg版本代号、R版本参数值以及二次开发时VS、.NET版本关系
  • 解密可观测行业中的语义规范 — 代码世界中的“语言艺术”
  • esp32 ap httpsever 控制led
  • 告别复杂判断!Python中实现函数重载的终极技巧
  • Clang-Format:让你的代码整齐划一,格式不再烦恼
  • 【jvm】Full GC
  • 【Python】实战:请使用面向对象的思想,设计自定义类,描述出租车和家用轿车的信息
  • 互联网摸鱼日报(2024-11-07)
  • requests库
  • 大数据之多级缓存方案
  • QCon演讲实录|徐广治:边缘云原生操作系统的设计与思考
  • web第二次作业
  • 大模型技术讲解:大模型参数微调(大模型微调)
  • 测试自动化如何和业务流程结合?
  • Python进阶之IO操作
  • ubuntu如何卸载colmap
  • 【comfyui教程】ComfyUI即将迎来全新界面:升级体验就在11月15日
  • Leecode热题100-104.二叉树的最大深度
  • 深度学习中的 Dropout:原理、公式与实现解析
  • 【大数据学习 | HBASE】habse的表结构
  • 完成程序《大奖赛评分B》
  • K8S篇(基本介绍)
  • linux alsa-lib snd_pcm_open函数源码分析(三)
  • 基于ssm的个人健康管理系统
  • Debian下载ISO镜像的方法
  • 大厂面试真题-简单说说线程池接到新任务之后的操作流程