当前位置: 首页 > news >正文

Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding(Hash JSON 双版本)

1. 场景与思路

  • 痛点:把“文本内容”转成向量后,如何在本地 Redis 里做近似向量搜索(KNN),而不依赖外部向量数据库?

  • 方案

    1. 利用 HuggingFace 模型 sentence-transformers/all-MiniLM-L6-v2 生成 384 维 Float32 向量;
    2. 借助 RediSearchHNSW 索引能力,在 Hash 或 JSON 文档里存储 & 查询向量;
    3. go-redis v9 的高阶 API(FTCreate / FTSearch / FTAggregate)完成端到端流程。

2. 环境准备

# 初始化 Go Module
go mod init vecexample# 安装依赖
go get github.com/redis/go-redis/v9
go get github.com/henomis/lingoose/embedder/huggingface

⚠️ Redis 服务器

  • 启动模块:redis-stackredis-stack-server 或自行加载 redisearch.so + rejson.so
  • go-redis 建议 Protocol: 2 (RESP2),避免 RESP3 生僻结构的解析开销。

3. 连接 Redis

ctx := context.Background()rdb := redis.NewClient(&redis.Options{Addr:     "localhost:6379",Protocol: 2, // RESP2 更省心
})

4. 创建索引(Hash 版)

_, _ = rdb.FTDropIndexWithArgs(ctx,"vector_idx",&redis.FTDropIndexOptions{DeleteDocs: true},
) // 防止重复_, err := rdb.FTCreate(ctx, "vector_idx",&redis.FTCreateOptions{OnHash: true,Prefix: []any{"doc:"}, // 监听 doc:* 键},&redis.FieldSchema{FieldName: "content", FieldType: redis.SearchFieldTypeText},&redis.FieldSchema{FieldName: "genre",   FieldType: redis.SearchFieldTypeTag},&redis.FieldSchema{FieldName: "embedding",FieldType: redis.SearchFieldTypeVector,VectorArgs: &redis.FTVectorArgs{HNSWOptions: &redis.FTHNSWOptions{Dim: 384, Type: "FLOAT32", DistanceMetric: "L2",},},},
).Result()
if err != nil { panic(err) }

5. 生成文本 Embedding

hf := huggingfaceembedder.New().WithToken(os.Getenv("HF_TOKEN")).                 // HuggingFace 访问令牌WithModel("sentence-transformers/all-MiniLM-L6-v2")sentences := []string{"That is a very happy person","That is a happy dog","Today is a sunny day",
}
tags := []string{"persons", "pets", "weather"}embs, _ := hf.Embed(ctx, sentences)

将 []float32 转成字节串(Hash 专用)

func floatsToBytes(fs []float32) []byte {buf := make([]byte, len(fs)*4)for i, f := range fs {binary.LittleEndian.PutUint32(buf[i*4:], math.Float32bits(f))}return buf
}

6. 写入 Hash 文档并自动索引

for i, emb := range embs {_, _ = rdb.HSet(ctx, fmt.Sprintf("doc:%d", i), map[string]any{"content":   sentences[i],"genre":     tags[i],"embedding": floatsToBytes(emb.ToFloat32()),}).Result()
}

7. KNN 查询

qEmb, _ := hf.Embed(ctx, []string{"That is a happy person"})
buf := floatsToBytes(qEmb[0].ToFloat32())res, _ := rdb.FTSearchWithArgs(ctx,"vector_idx","*=>[KNN 3 @embedding $vec AS score]",&redis.FTSearchOptions{Return: []redis.FTSearchReturn{{FieldName: "score"},{FieldName: "content"},},Params: map[string]any{"vec": buf},DialectVersion: 2,},
).Result()for _, d := range res.Docs {fmt.Printf("%s\t%v\n", d.Fields["content"], d.Fields["score"])
}

输出示例

That is a very happy person     0.114...
That is a happy dog             0.610...
Today is a sunny day            1.486...

8. 聚合统计:每类文本数量

agg, _ := rdb.FTAggregateWithArgs(ctx,"vector_idx", "*",&redis.FTAggregateOptions{GroupBy: []redis.FTAggregateGroupBy{{Fields: []any{"@genre"},Reduce: []redis.FTAggregateReducer{{Reducer: redis.SearchCount, As: "cnt"},},},},},
).Result()for _, row := range agg.Rows {fmt.Printf("%s : %v\n", row.Fields["genre"], row.Fields["cnt"])
}

9. 切换 JSON 存储的关键差异

步骤HashJSON
FTCreateOnHash:trueOnJSON:true;字段用 $.path + As
写入方式HSet("doc:*", ...) + 字节串JSONSet("jdoc:*", "$", ...) + []float32 原样
查询参数依旧传字节串依旧传字节串(参数统一编码)
结果字段字段直接展开字段在 Fields["$"] 内或按别名返回

JSON 写入示例

_, _ = rdb.FTCreate(ctx, "vector_json_idx",&redis.FTCreateOptions{OnJSON: true, Prefix: []any{"jdoc:"}},&redis.FieldSchema{FieldName: "$.content", As: "content", FieldType: redis.SearchFieldTypeText},&redis.FieldSchema{FieldName: "$.genre",   As: "genre",   FieldType: redis.SearchFieldTypeTag},&redis.FieldSchema{FieldName: "$.embedding", As: "embedding",FieldType: redis.SearchFieldTypeVector,VectorArgs: &redis.FTVectorArgs{HNSWOptions: &redis.FTHNSWOptions{Dim: 384, Type: "FLOAT32", DistanceMetric: "L2"},},},
).Result()for i, emb := range embs {_, _ = rdb.JSONSet(ctx, fmt.Sprintf("jdoc:%d", i), "$", map[string]any{"content":   sentences[i],"genre":     tags[i],"embedding": emb.ToFloat32(), // 直接存数组!}).Result()
}

10. 常见问题 & 排错

问题可能原因 / 解决
ERR unknown index name忘记先 FT.CREATE 或 Index 名写错
查询报 Property is not a vector向量字段未被识别:检查 FieldType、Dim、Type
向量搜索速度慢调整 HNSW 参数 EF_CONSTRUCTION / M,或增加内存
RESP3 解析困难使用 Protocol:2,或调用 RawResult() 自行解析

11. 结语

通过 go-redis + RediSearch,你可以在本地 Redis 轻松实现:

  1. 文本 Embedding 近似搜索(KNN & 距离排名)
  2. 多条件过滤、聚合分析 与传统全文搜索混合使用
  3. Hash 与 JSON 双存储的无缝切换

这使得 Redis 成为“小而全”的 实时语义检索引擎。复制本文代码,即刻在你的业务中解锁 AI 搜索能力吧!🚀

http://www.lryc.cn/news/593137.html

相关文章:

  • 微服务的编程测评系统-网关-身份认证-redis-jwt
  • 【C# in .NET】20. 探秘静态类:抽象与密封的结合体
  • 【安卓笔记】RxJava的Hook机制,整体拦截器
  • Kotlin内联函数
  • kotlin部分常用特性总结
  • Window延迟更新10000天配置方案
  • 【设计模式C#】状态模式(用于解决解耦多种状态之间的交互)
  • 使用目标检测yolo11去训练微藻细胞检测数据集YOLO格式703张6类别步骤和流程
  • 云端成本治理利器:亚马逊云科技智能仪表盘(AWS Cost Intelligence Dashboard)深度解析
  • Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对话系统多轮交互优化与用户体验提升(351)
  • 前端面试专栏-工程化:27.工程化实践(CI/CD、代码规范)
  • NLP中情感分析如何结合知识图谱在跨文化领域提升观念分析和价值判断的准确性?
  • 基于Socket来构建无界数据流并通过Flink框架进行处理
  • xss-dom漏洞
  • 力扣 hot100 Day49
  • 【Python练习】050. 编写一个函数,实现简单的日历功能,显示当前日期和星期
  • Uniapp之键盘弹窗
  • 了解pycharm的基本运用
  • Android无需授权直接访问Android/data目录漏洞
  • 开启你的专属智能时代:枫清科技个人智能体限时体验计划上线!
  • 网络基础DAY13-NAT技术
  • 嵌入式学习-PyTorch(9)-day25
  • Tomcat 生产 40 条军规:容量规划、调优、故障演练与安全加固
  • Linux:lvs集群技术
  • steam游戏搬砖项目超完整版实操分享
  • 6-大语言模型—预训练:数据处理
  • HOT100——排序篇Leetcode215. 数组中的第K个最大元素
  • LVS工作模式和算法的总结
  • 相角补偿全通滤波器设计:相位均衡(0~350Hz,15°超前)
  • 《YOLOv13魔术师专栏》全景指南:从理论到工业级实战