当前位置: 首页 > news >正文

LangChain4j与Elasticsearch:构建高效的语义嵌入存储

LangChain4j与Elasticsearch:构建高效的语义嵌入存储

一、LangChain4j与Elasticsearch集成概述

1.1 LangChain4j简介

LangChain4j是一个为Java开发者设计的开源库,旨在简化大型语言模型(LLM)在Java应用程序中的集成。它提供了与多个LLM提供商、嵌入存储、嵌入模型等的集成,支持文本和图像输入,以及AI服务的高级API。

1.2 Elasticsearch在LangChain4j中的作用

Elasticsearch是一个基于Lucene的搜索引擎,提供了全文搜索和分析功能。在LangChain4j中,Elasticsearch被用作嵌入存储,用于存储和检索语义嵌入向量,从而提高搜索和检索的效率。

二、Elasticsearch作为嵌入存储的集成

2.1 为什么选择Elasticsearch

LangChain4j提供了内存嵌入存储,但对于更大的数据集,内存存储不适用,因为服务器内存有限。Elasticsearch的“弹性”特性使其能够根据数据量进行扩展,因此,将嵌入存储到Elasticsearch中是一个理想的选择。

2.2 添加Elasticsearch依赖

要在项目中集成Elasticsearch,需要添加以下Maven依赖:

<dependency><groupId>dev.langchain4j</groupId><artifactId>langchain4j-elasticsearch</artifactId><version>${langchain4j.version}</version>
</dependency>
<dependency><groupId>org.testcontainers</groupId><artifactId>elasticsearch</artifactId><version>1.20.1</version><scope>test</scope>
</dependency>

这些依赖包括LangChain4j的Elasticsearch集成模块和TestContainers模块,后者用于在测试中启动Elasticsearch实例。

三、配置和使用Elasticsearch嵌入存储

3.1 启动Elasticsearch容器

使用TestContainers模块启动Elasticsearch实例:

ElasticsearchContainer container =new ElasticsearchContainer("docker.elastic.co/elasticsearch/elasticsearch:8.15.0").withPassword("changeme");
container.start();
final CredentialsProvider credentialsProvider = new BasicCredentialsProvider();
credentialsProvider.setCredentials(AuthScope.ANY, new UsernamePasswordCredentials("elastic", "changeme"));
client = RestClient.builder(HttpHost.create("https://" + container.getHttpHostAddress())).setHttpClientConfigCallback(httpClientBuilder -> {httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider);httpClientBuilder.setSSLContext(container.createSslContextFromCa());return httpClientBuilder;}).build();
client.performRequest(new Request("GET", "/"));

这段代码创建并启动了一个Elasticsearch容器,并配置了客户端以连接到该容器。

3.2 使用Elasticsearch作为嵌入存储

将Elasticsearch设置为LangChain4j的嵌入存储:

EmbeddingStore<TextSegment> embeddingStore =ElasticsearchEmbeddingStore.builder().restClient(client).build();
embeddingStore.add(response1.content(), game1);
embeddingStore.add(response2.content(), game2);

这段代码将向量存储在Elasticsearch的默认索引中。也可以指定一个更有意义的索引名称:

EmbeddingStore<TextSegment> embeddingStore =ElasticsearchEmbeddingStore.builder().indexName("games").restClient(client).build();
embeddingStore.add(response1.content(), game1);
embeddingStore.add(response2.content(), game2);

四、搜索相似向量

4.1 向量化查询

要搜索相似向量,首先需要使用模型将查询转换为向量表示:

String question = "I want to pilot a car";
Embedding questionAsVector = model.embed(question).content();

4.2 执行相似性搜索

使用嵌入存储执行相似性搜索:

EmbeddingSearchResult<TextSegment> result = embeddingStore.search(EmbeddingSearchRequest.builder().queryEmbedding(questionAsVector).build());

这段代码在Elasticsearch中搜索与查询向量相似的向量。

五、总结

LangChain4j与Elasticsearch的集成提供了一个强大的解决方案,用于处理和检索语义嵌入向量。通过将Elasticsearch作为嵌入存储,可以有效地扩展处理大数据集的能力,并提高搜索相关性。这种方法结合了LangChain4j的灵活性和Elasticsearch的可扩展性,为构建高效的语义搜索应用提供了坚实的基础。

http://www.lryc.cn/news/513187.html

相关文章:

  • 黄河小浪底水利枢纽泄洪预警广播系统正式上线
  • 理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化
  • [文献阅读]ReAct: Synergizing Reasoning and Acting in Language Models
  • 摄像头监视脚本
  • FreeRTOS的内存管理(选择heap4.c文件的理由)
  • SQL-leetcode-183. 从不订购的客户
  • 苹果系统MacOS下ObjectC建立的App程序访问opencv加载图片程序
  • 《代码随想录》Day21打卡!
  • Dell服务器升级ubuntu 22.04失败解决
  • 构建全志 T113 Tina SDK
  • (推荐)【通用业务分发架构】1.业务分发 2.rpc调用 3.Event事件系统
  • 最近的一些事情
  • CP AUTOSAR标准之FlexRayDriver(AUTOSAR_SWS_FlexRayDriver)(更新中……)
  • Cesium 实战 27 - 三维视频融合(视频投影)
  • GraphRAG实践:docker部署neo4j
  • 常用的数据库类型都有哪些
  • swiftui开发页面加载发送请求初始化@State变量
  • Ribbon和Eureka的集成
  • 关于UE加载osgb数据的研究(一)
  • 探索数据之美,Plotly引领可视化新风尚
  • List排序的方法
  • BurstAttention:高效的分布式注意力计算框架
  • 大数据治理:构建稳健的数据生态系统
  • 【图书介绍】几本适合当教材的大数据技术图书
  • 阴阳师の新手如何速刷5个SP/SSR?!(急速育成)
  • unity学习4:git和SVN的使用差别
  • 四大自平衡树对比:AVL树、红黑树、B树与B+树
  • BUUCTF Pwn ciscn_2019_es_2 WP
  • MongoDb-mongosh-登录
  • C语言day3:shell脚本