当前位置: 首页 > news >正文

word embedding

介绍:

ASCII可以编码为计算机可以识别的数据,为什么还需要embedding?  计算机只是对“字母”进行ASCII编码,并没有对词汇的“Word”编码。词汇应该是咱们处理自然语言的最基本的元素,而不是字母。那么世界上有千千万万的Word,咱们具体怎么表示呢?就算找出了一种方式来表示每一个Word,那么这些Word之间的关系如何来表示,毕竟有些词汇在某种维度上是比较相似的,有些词汇在某些维度上的距离则是比较远的,那么咱们如何还找到他们的关系呢?

embedding简单来说,它就是把单词或汉字转换成向量的过程。

向量数据库: 为了快速搜索许多向量,我们建议使用向量数据库

文本向量化工具:
Text2vec:https://github.com/shibing624/text2vec
文本相似度比较算法
余弦相似度(Cosine distance)
欧式距离(L2-Squared distance)
点积距离(Dot Product distance)
汉明距离(Hamming distance)

可用的向量数据库选项包括:
Pinecone,一个完全托管的向量数据库
PGVector,一个免费可用的向量数据库
Weaviate,一个开源矢量搜索引擎
Qdrant,一个矢量搜索引擎
Milvus,专为可扩展相似性搜索而构建的矢量数据库
Chroma,一个开源嵌入存储库
Typesense,快速开源矢量搜索引擎
Zilliz,由 Milvus 提供支持的数据基础设施

https://zhuanlan.zhihu.com/p/644701682

https://zhuanlan.zhihu.com/p/647646322

http://www.lryc.cn/news/307790.html

相关文章:

  • 原码,反码,补码
  • 科技赋能,MTW400A为农村饮水安全打通“最后一公里”
  • 测试计划、测试方案、测试策略、测试用例的区别
  • c# 异常处理
  • (delphi11最新学习资料) Object Pascal 学习笔记---第6章第3节(传递字符串作为参数)
  • k8s节点负载使用情况分析命令kubectl describe node [node-name]
  • 自动驾驶加速落地,激光雷达放量可期(上)
  • 变量的间接引用
  • 学习JAVA的第六天(基础)
  • LeetCode 2673.使二叉树所有路径值相等的最小代价:自顶向下的DFS 或 自底向上的递推
  • 9、电源管理入门之CPU Idle
  • uniapp的扩展组件uni-popup 弹出层自动打开
  • 二、mysql常用函数
  • 【Redis | 第一篇】快速了解Redis
  • Vim 模式切换 | 命令集
  • 广和通5G智能模组SC171支持Android、Linux和Windows系统,拓宽智能物联网应用
  • 【51单片机】红外遥控红外遥控电机调速(江科大)
  • kubesphere jenkins 流水线 未运行(解决方案)
  • 如何保护服务器的安全
  • Python使用HDL 模拟器实现 FPGA 板卡的仿真验证
  • vue中 input disable后无法触发点击事件
  • 实战一个 Jenkins 构建 CI/CD流水线 的简单配置过程哈
  • 【InternLM 实战营笔记】大模型评测
  • 数据卷(Data Volumes) 自定义镜像(dockerfile)
  • 数据库管理-第156期 Oracle Vector DB AI-07(20240227)
  • CASAtomic原子操作详解
  • 真机测试——关于荣耀Magic UI系列HBuilder真机调试检测不到解决办法
  • 代理IP安全问题:在国外使用代理IP是否安全
  • SonarLint 疑难语法修正
  • MurmurHash算法