当前位置：首页 > news >正文

用 Python 将分组文本转为 Excel：以四级词汇为例的实战解析

news 2025/7/13 11:55:30

一、背景引入：从“人工整理”到“自动化处理”的转变

在英语学习过程中，我们经常会接触各种分组整理的词汇表，比如“Group1”对应一组单词及释义，随后是“Group2”、“Group3”等等。如果你下载了一个 .txt 格式的四级词汇表，打算分类整理后导入 Excel 学习软件中，大概率你会遇到格式杂乱、分组不清、复制麻烦的问题。

这正是我们今天要解决的实际场景：如何用 Python 脚本自动读取一份分组文本，提取每组单词及释义，并导出为结构清晰、按组分类的 Excel 文件？

本文将通过一段简洁但实用的代码，为你完整拆解整个处理过程。只需一次点击，就能让海量词汇“格式整齐地排队”进入 Excel，开启你的高效学习之旅。

二、思路分析：我们到底要做什么？

整个任务可以分为以下几个步骤：

读取文本文件：读取本地 .txt 文件中的原始词汇数据。
按组分割内容：使用正则表达式识别每个 Group 的起始点，并提取组名与内容。
提取每行单词和释义：针对每组中的每一行，解析出单词与释义（考虑 Tab 和空格分隔）。
分组保存为 Excel Sheet：每个 Group 单独作为一个 Excel 的 Sheet 保存，输出为 .xlsx 文件。
打印结果提示：脚本执行完毕后，输出处理结果路径。

这不仅是一次对正则表达式和 pandas 的实战练习，也是一次程序自动化处理文本数据的典型示例。

三、具体功能实现：每一步都不马虎

1. 读取文本数据

with open("四级单词.txt", "r", encoding="utf-8") as file:raw_text = file.read()

这段代码打开并读取了名为《四级单词.txt》的文件内容。注意编码采用 UTF-8，防止中文乱码。

2. 利用正则表达式识别 Group 分组

pattern = r"(Group\d+)\n"
splits = re.split(pattern, raw_text)

我们设定一个正则：Group 开头，后接数字，最后以换行结束。
然后用 re.split 分割文本，这样就能将每组的组名和词条内容分开。

举个例子，原文本可能像这样：

Group1
apple	苹果
banana	香蕉
Group2
run	跑
jump	跳

经过 re.split 之后，splits 的结果会是：

['', 'Group1', 'apple\t苹果\nbanana\t香蕉', 'Group2', 'run\t跑\njump\t跳']

3. 将每组单词提取到字典中

grouped_data = defaultdict(list)
for i in range(1, len(splits), 2):group_name = splits[i]entries = splits[i + 1].strip().split("\n")for entry in entries:...

利用 Python 的 defaultdict(list) 自动为每个组建立一个单词列表。
每个词条处理如下逻辑：
- 优先使用 \t 制表符分隔；
- 若没有 \t，尝试用空格分隔；
- 去掉无效或空行，确保数据干净整洁。

if "\t" in entry:word, meaning = entry.split("\t", 1)
elif " " in entry:parts = entry.split(maxsplit=1)if len(parts) == 2:word, meaning = partselse:continue

这样处理后，每个分组会变成例如：

'Group1': [('apple', '苹果'), ('banana', '香蕉')]

4. 写入 Excel 文件，每组一个 Sheet

with pd.ExcelWriter(output_path) as writer:for group, word_list in grouped_data.items():df = pd.DataFrame(word_list)df.to_excel(writer, sheet_name=group, index=False, header=False)

使用 pandas.ExcelWriter 写入 Excel。
每个分组作为一个单独的 Sheet 页。
不写入表头或行号，使数据更加简洁。

最终生成的文件结构清晰、美观，每页都是该组的词汇，便于记忆与分类学习。

5. 执行结果提示

print(f"转换完成，已保存为：{output_path}")

一个简单但贴心的用户提示，方便确认处理成功与结果文件位置。

四、代码展示：实用就是最好的美学

完整代码如下（可直接运行）：

import re
import pandas as pd
from collections import defaultdictwith open("四级单词.txt", "r", encoding="utf-8") as file:raw_text = file.read()pattern = r"(Group\d+)\n"
splits = re.split(pattern, raw_text)
grouped_data = defaultdict(list)for i in range(1, len(splits), 2):group_name = splits[i]entries = splits[i + 1].strip().split("\n")for entry in entries:entry = entry.strip()if not entry:continueif "\t" in entry:word, meaning = entry.split("\t", 1)elif " " in entry:parts = entry.split(maxsplit=1)if len(parts) == 2:word, meaning = partselse:continueelse:continuegrouped_data[group_name].append((word.strip(), meaning.strip()))output_path = "四级单词.xlsx"
with pd.ExcelWriter(output_path) as writer:for group, word_list in grouped_data.items():df = pd.DataFrame(word_list)df.to_excel(writer, sheet_name=group, index=False, header=False)print(f"转换完成，已保存为：{output_path}")