当前位置：首页 > news >正文

milvus数据库的数据管理-插入数据

news 2025/8/8 11:19:08

一、插入数据

1.准备数据

数据必须与数据库中定义的字段元数据一致，与集合的模式匹配

import random
data = [[i for i in range(2000)],[str(i) for i in range(2000)],[i for i in range(10000, 12000)],[[random.random() for _ in range(2)] for _ in range(2000)],# use `default_value` for a field 使用空值占位一个字段[], # orNone,# or just omit the field  直接省略一个字段
]
# 对于动态模式，可以灵活地增加字段和值
data.append([str("dy"*i) for i in range(2000)])

2.插入数据
连接现有的集合，可通过指定partition_name来选择将数据插入指定分区。

from pymilvus import Collection
collection = Collection("book")      # Get an existing collection.
mr = collection.insert(data)

Parameter Description
data Data to insert into Milvus.
partition_name (optional) Name of the partition to insert data into.

3.flush调用
当数据被插入到Milvus中时，会被插入到段中。段必须达到一定大小才能被密封和索引。
未密封的段将被暴力搜索。为了避免这种情况，最好调用flush()。flush调用将密封任何剩余段并将它们发送到索引。

二、从文本批量插入实体

1.准备数据文件

①基于行的json文件
文件名自定义，但是根键必须是raw。实体以字典组织，key是字段名，value是字段值
提示：

不要添加不存在于目标集合中的字段，也不要漏掉目标集合模式定义的任何字段。
在每个字段中使用正确类型的值。例如，在整数字段中使用整数，在浮点字段中使用浮点数，在varchar字段中使用字符串，在向量字段中使用浮点数组。
不要在JSON文件中包含自动生成的主键。
对于二进制向量，请使用uint8数组。每个uint8值表示8个维度，值必须介于0和255之间。例如，[1, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 1, 1]是一个16维的二进制向量，应该在JSON文件中写成[128, 7]。

{"rows":[{"book_id": 101, "word_count": 13, "book_intro": [1.1, 1.2]},{"book_id": 102, "word_count": 25, "book_intro": [2.1, 2.2]},{"book_id": 103, "word_count": 7, "book_intro": [3.1, 3.2]},{"book_id": 104, "word_count": 12, "book_intro": [4.1, 4.2]},{"book_id": 105, "word_count": 34, "book_intro": [5.1, 5.2]}]
}{"rows":[{"book_id": 101, "word_count": 13, "book_intro": [1.1, 1.2], "book_props": {"year": 2015, "price": 23.43}},{"book_id": 102, "word_count": 25, "book_intro": [2.1, 2.2], "book_props": {"year": 2018, "price": 15.05}},{"book_id": 103, "word_count": 7, "book_intro": [3.1, 3.2], "book_props": {"year": 2020, "price": 36.68}},{"book_id": 104, "word_count": 12, "book_intro": [4.1, 4.2] , "book_props": {"year": 2019, "price": 20.14}},{"book_id": 105, "word_count": 34, "book_intro": [5.1, 5.2] , "book_props": {"year": 2021, "price": 9.36}}]
}

②基于列的numpy文件
可以使用NumPy数组将数据集的每个列组织到单独的文件中。在这种情况下，使用每个列的字段名称来命名NumPy文件。
使用每个列的字段名称来命名NumPy文件。不要添加命名为目标集合中不存在的字段的文件。每个字段应该有一个NumPy文件。
创建NumPy数组时使用正确的值类型。

import numpy
numpy.save('book_id.npy', numpy.array([101, 102, 103, 104, 105]))
numpy.save('word_count.npy', numpy.array([13, 25, 7, 12, 34]))
arr = numpy.array([[1.1, 1.2],[2.1, 2.2],[3.1, 3.2],[4.1, 4.2],[5.1, 5.2]])
numpy.save('book_intro.npy', arr)

2.插入实体
①上传数据文件
可以使用MinIO或本地硬盘进行存储。
要使用MinIO进行存储，请将数据文件上传到milvus.yml配置文件中定义的存储桶中minio.bucketName；
对于本地存储，请将数据文件复制到本地磁盘的目录中。

②插入实体
对于json文件，传入单个文件的列表，如：

from pymilvus import utility
task_id = utility.do_bulk_insert(collection_name="book",partition_name="2022",files=["test.json"]
)

对于numpy文件，传入多元素列表：

from pymilvus import utility
task_id = utility.do_bulk_insert(collection_name="book",partition_name="2022",files=["book_id.npy", "word_count.npy", "book_intro.npy", "book_props.npy"]
)

每次批量插入API调用都会立即返回。返回值是在后台运行的数据导入任务的ID。

设置文件路径时，请注意
如果您将数据文件上传到MinIO实例，则有效的文件路径应相对于在**“milvus.yml"中定义的根桶，例如"data/book_id.npy”。
如果您将数据文件上传到本地硬盘，则有效的文件路径应为绝对路径，例如"/tmp/data/book_id.npy"**。
如果您有很多文件需要处理，请考虑创建多个数据导入任务并让它们并行运行。

三、检查任务状态

批量插入API是异步的，您可能需要检查数据导入任务是否已完成。
使用get_bulk_insert_state()
1.检查单个任务：

task = utility.get_bulk_insert_state(task_id=task_id)
print("Task state:", task.state_name)
print("Imported files:", task.files)
print("Collection name:", task.collection_name)
print("Partition name:", task.partition_name)
print("Start time:", task.create_time_str)
print("Imported row count:", task.row_count)
print("Entities ID array generated by this task:", task.ids)if task.state == BulkInsertState.ImportFailed:print("Failed reason:", task.failed_reason)

2.检查所有任务
使用list-bulk-insert-tasks()

tasks = utility.list_bulk_insert_tasks(collection_name="book", limit=10)
for task in tasks:print(task)

四、检查数据可搜索性

1.检查索引构建进度
PyMilvus提供了一种实用方法，等待索引构建过程完成。

utility.wait_for_index_building_complete(collection_name)

2.将新段加载到查询节点

collection.load(_refresh = True)

默认情况下，_refresh参数为false。在首次加载集合时不要将其设置为true。

查看全文

http://www.lryc.cn/news/234339.html

系列一、请谈谈你对JVM的理解？Java8的虚拟机有什么更新？

恕我直言，大模型对齐可能无法解决安全问题，我们都被表象误导了

Apache Airflow (九) ：Airflow Operators及案例之BashOperator及调度Shell命令及脚本

IJ中配置TortoiseSVN插件：

个人实现在线支付，一种另类的在线支付解决方案

浅谈智能安全配电装置应用在银行配电系统中

macOS下如何使用Flask进行开发

记一次服务器配置文件获取OSS

合众汽车选用风河Wind River Linux系统

PTA平台-2023年软件设计综合实践_5(指针及引用)

智慧卫生间

Cadence virtuoso drc lvs pex 无法输入

反序列化漏洞(2), 分析调用链, 编写POC

【django+vue】项目搭建、解决跨域访问

【数据库】数据库连接池导致系统吞吐量上不去-复盘

华纳云：租用的服务器连接超时怎么办?

基于MS16F3211芯片的触摸控制灯的状态变化和亮度控制（11.17，PWM）

编译buildroot出错，这个怎么解决呢，感谢

【0基础学Java第十课】-- 认识String类

lxml基本使用

【数据结构初阶】链表OJ

【Vue渲染】条件渲染 | v-if | v-show | 列表渲染 | v-for

开源网安解决方案荣获四川数实融合创新实践优秀案例

debian/ubuntu/linux如何快速安装vscode

Python3语法总结-数据转换②

一、插入数据

二、从文本批量插入实体

三、检查任务状态

四、检查数据可搜索性

相关文章：