当前位置：首页 > news >正文

CSV文件中使用insert 函数在指定列循环插入不同数据

news 2025/8/16 4:15:18

文章目录

一、系统、工具要求
二、需求
三、代码实现：
四、核心代码解读
五、逐行更改某一列数据
六：实现在文件的末尾增加指定内容列

一、系统、工具要求

pandas
python
csv

Windows 系统

二、需求

我有两个文件：
文件一：subject_main.csv
文件二：merged_file.csv

其中，文件一与文件二的ID列是有关系，就是，这两个文件的ID列的值是一样的，但是位置可能不一样。
现在有个需求就是，将 subject_main.csv 中，ID 所在的 subject_main 列的值，存入到文件一：subject_main.csv中 ID列值与文件二ID值相同的行。

举个例子：

文件一：

有：
ID ，name，age，class
10005，’ ’ ，’ ‘，’ ’
10008，’ ’ ，’ ‘，’ ’

文件二：
有：
ID，身高
10008，155
10005，185

我希望的最终输出的文件是：

ID ，name，age，身高，class
10005，’ ’ ，’ ‘，’ ‘，185，’ ’
10008，’ ‘，’ ‘，’ ‘，155，’ ’
明白需求了吧=====

三、代码实现：

import pandas as pd# 读取第一个csv文件
df1 = pd.read_csv('subject_main.csv')# 读取第二个csv文件
df2 = pd.read_csv('merged_file.csv')if 'subject_main' not in df2.columns:df2.insert(2, 'subject_main', " ")# 遍历第一个csv文件的每一行
a = 1
for index, row in df1.iterrows():id_value_1 = row['id']  # 获取当前行的ID值id_value_2 = df2['id']# 在第二个文件中查找相同ID的行matching_row = df2.index[id_value_2 == id_value_1].tolist()# print(matching_row)for i in matching_row:df2.at[i, 'subject_main'] = row['subject']a += 1print(f'出于数据的第：{a}行')# # # 将更新后的DataFrame保存为新的csv文件
df2.to_csv('new_data.csv', index=False)

四、核心代码解读

# 如果df2中存在相同的ID值，则更新其'subject_main'列
matching_indices = df2.index[df2['id'] == id_value_1].tolist()
for i in matching_indices:df2.at[i, 'subject_main'] = row['subject']

1… matching_indices = df2.index[df2['id'] == id_value_1].tolist()：
df2['id'] == id_value_1：这个表达式比较df2中的’id’列的每个值是否等于从df1中提取的id_value_1。这会返回一个布尔序列（True或False值）。
df2.index[...]：取出满足条件的那些行的索引。
.tolist()：将这些索引转换成Python列表。
2 … for i in matching_indices:：这个循环遍历刚才找到的匹配索引的列表。

3… df2.at[i, 'subject_main'] = row['subject']：

df2.at[i, 'subject_main']：at是pandas的一个函数，用来快速访问某个特定的单元格。这里它用于访问df2中索引为i的行、列名为'subject_main'的单元格。
row['subject']：这是在当前迭代中从df1的当前行获取的'subject'列的值。
整条语句的意思是将df1中当前行的'subject'列的值赋给df2中索引为i、列名为'subject_main'的单元格。
… …结合在一起，这段代码就是在对df1进行迭代的过程中，对于每一行，都在df2中找到与之id值相同的所有行，并将这些行的'subject_main'列更新为df1中该行的'subject'列的值。这样，就实现了将df1中的某些数据插入到df2中指定的位置。

五、逐行更改某一列数据

源码实现：

import csvname_column_values = []# 需要更改的文件
with open('new_data.csv', 'r', encoding='utf-8') as file:reader = csv.DictReader(file)for row in reader:name_value = row['id']  # 获取'ID'列的值new_value = "PRO" + name_valuerow['id'] = new_value  # 更新'ID'列的值name_column_values.append(row)fieldnames = reader.fieldnames# 新生成的文件
with open('new_data_2.csv', 'w', newline='', encoding='utf-8') as file:writer = csv.DictWriter(file, fieldnames=fieldnames)writer.writeheader()writer.writerows(name_column_values)

代码实现的是，上面文件的中的ID列数值，进行一些基本改造

六：实现在文件的末尾增加指定内容列

with open(fileName, 'r', encoding='utf-8') as file:reader = csv.DictReader(file)rows = list(reader)
print(rows)
# # 添加新列的数据
for row in rows:# 在这里根据需要进行逻辑处理，计算新列的值new_value = "Product"row[':LABEL'] = new_value #增加一个名字为 ':LABEL' 的列。
# 将修改后的数据写入新的CSV文件
fieldnames = reader.fieldnames
# fieldnames = reader.fieldnames
# with open('./newdata.csv', 'w', newline='', encoding='utf-8') as file:
with open(newFileName, 'w', newline='', encoding='utf-8') as file:writer = csv.DictWriter(file, fieldnames=fieldnames)writer.writeheader()writer.writerows(rows)