当前位置: 首页 > news >正文

华为云 Flexus+DeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践

华为云 Flexus+DeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践

前言背景

在这里插入图片描述

企业财务处理中,增值税发票信息手动提取存在效率低、易出错等痛点,华为云 Flexus 弹性算力联合 DeepSeek 大模型,通过 CCE 集群部署 Dify 平台,构建发票上传 - 文本解析 - 信息提取自动化工作流,可精准识别发票代码、金额等关键数据并输出结构化 JSON,助力企业提升财务处理效率,降低人工成本

前提准备
Step.1 华为账号注册登录

1、华为云官网登录

在这里插入图片描述

Step.2 华为云单机部署流程

华为云 Flexus+DeepSeek 实战:华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】

查看链接

✅上面链接文章是本文的操作前提,包含了华为云单机部署 Dify - LLM 开发平台全流程,涵盖 ModelArts Studio 大模型开通、Dify 平台单机与模型供应商配置,还有高质量知识库配置(含 Embedding 及 Rerank 模型部署、相关供应商配置等),以及资源删除销毁,大家需要根据链接完成前提部署再进行本文的操作流程哈

智能体工作流搭建配置

1、智能体工作流信息创建配置

在这里插入图片描述

2、工作流创建配置

在这里插入图片描述

3、开始节点配置

在这里插入图片描述

在这里插入图片描述

4、文档提取器节点配置

  • 输入:接收 “开始” 节点的 sys.files(即上传的发票文件,支持 pdf、docx 等多格式 ),作为提取内容的来源。
  • 功能:解析文件文本信息,输出给后续 “LLM(DeepSeek - R1 模型 )” 节点,让 AI 基于提取的内容识别发票关键数据(如金额、税额等 ),是从 “文件上传” 到 “智能识别” 的核心转换环节 。

在这里插入图片描述

5、大模型配置

  • 模型:选用 DeepSeek-R1,用于处理发票提取任务。
  • 输入:接收 “文档提取器” 解析的发票文件内容(file 关联的文件信息 )。
  • 系统指令(SYSTEM):要求提取发票关键信息(如机器编号、发票代码等 ),并以 JSON 格式输出,明确模型处理发票内容的规则,是智能识别发票数据的核心环节 。
  • USER 输入:关联 “开始” 节点的 sys.query,即把用户输入的查询内容作为该模块的用户侧输入,用于流程中结合历史或上下文信息处理,是构建对话 / 任务上下文关联的配置项 。

在这里插入图片描述

# 角色
你是一个专业的发票信息提取助手,能够从增值税发票中精准地解析并提取所需的信息,然后将这些信息按照指定的JSON格式进行输出。## 技能
### 技能 1: 解析发票
1. 接收并识别增值税发票的图像或文本信息。
2. 根据规则说明,准确提取出所有必要的字段信息。### 技能 2: 数据校验
1. 确保提取的数据符合格式要求,如字段名称与示例完全一致,包括标点和空格。
2. 对金额、日期等关键信息进行校验,确保其严格按票面信息提取。### 技能 3: JSON格式化
1. 将提取的数据按照指定的JSON结构进行组织。
2. 确保所有字段的值正确无误,如无对应信息则填入空字符串。### 技能 4: 精准识别
1. 仔细匹配发票上的文字信息,确保每个字段的提取精准无误。
2. 对于票面上直接显示的税率、税额等信息直接取值,对于需要计算的则按照票面的计算逻辑进行处理。## 限制
- 提取信息时必须严格依据票面内容,不能自行推测或填写不存在的字段。
- 输出内容必须符合规定的JSON格式,不能有任何偏差。
- 对于所有字段的提取,若无对应信息,则必须填写空字符串,不得留白或填写其它默认值。

6、结束节点

  • 功能:接收 LLM 节点输出的 text(即发票提取结果 ),作为最终回复内容输出给用户。
  • 流程定位:是工作流收尾环节,把 AI 处理后的发票信息(如金额、税额等关键数据 ),通过该节点反馈,完成 “上传发票→提取信息→回复结果” 的完整流程 。

在这里插入图片描述

工作流测试与预览

1、准备需要提取的发票

在这里插入图片描述

2、上传至Dify平台

在这里插入图片描述

3、工作流提取分析

在这里插入图片描述

{
"机器编号": "",
"发票代码": "",
"发票号码": "24342000000169207701",
"开票日期": "2024年11月22日",
"校验码": "",
"购买方名称": "杭州...有限公司",
"购买方纳税人识别号": "91330...CAYEC75C",
"购买方地址、电话": "",
"开户行及账号": "",
"货物或应税劳务、服务名称": "*信息技...息服务费",
"规格型号": "",
"单位": "",
"数量": "",
"单价": "",
"金额": "¥243.40",
"税率": "6%",
"税额": "¥14.60",
"价税合计(大写)": "贰佰伍拾捌圆整",
"价税合计(小写)": "¥258.00",
"销售方名称": "蚌埠谦..技有限公司",
"销售方纳税人识别号": "9134030...34329C",
"销售方地址、电话": "",
"开户行及账号": "徽商银行股份...蚌山支行;2379702504...528183/12804010210002...991",
"备注": "",
"收款人": "",
"复核": ""
}

4、成功搭建展示

在这里插入图片描述

应用场景与拓展方向

通过华为云 Flexus 算力与 DeepSeek 大模型结合,实现增值税发票关键信息自动化提取,已在企业财务审核、智能报销及税务申报等场景落地,未来将向多票种识别、OCR 与 LLM 深度融合及行业定制方案拓展,全面提升票据处理智能化水平

财务场景全覆盖:支撑企业发票验真、报销流程优化及税务申报自动化,如某制造企业借此提升审核效率提高

技术融合升级:通过 OCR 模型与 DeepSeek 大模型结合提升识别准确率,计划拓展至全票种类型解析

行业定制拓展:针对零售、医疗等行业开发专属模板,同步集成区块链存证实现票据数据全链路可信溯源

总结

本文基于华为云 Flexus 弹性算力与 DeepSeek 大模型,通过 CCE 集群部署 Dify 平台构建增值税发票智能提取工具,实现发票代码、金额等关键信息自动化解析与结构化输出,经过实践可以企业财务、报销及税务场景落地提效,未来可以向多票种兼容、OCR+LLM 深度融合及行业定制方向拓展,为票据处理智能化提供解决方案

极简部署体验:通过自动化工具与预置模板,快速完成环境配置,无需复杂操作即可搭建开发平台

柔性资源调配:支持 CPU 与内存灵活配比,根据业务负载动态调整资源,按需计费降低算力成本

场景无缝适配:适用于个人学习、中小企业开发测试等场景,且能平滑扩展至集群部署,满足业务增长需求

http://www.lryc.cn/news/574008.html

相关文章:

  • 虚拟 DOM 与 Diff 算法:现代前端框架的核心机制
  • [3-01-02].第15节:调优工具 - 查看 SQL 执行成本
  • 编程捏脸系统:从美术资源到实时变形的深度实现
  • 系统规划与管理师(第2版)第9章思维导图发布
  • STM32HAL库 -- 9.IIC通信 软件IIC与硬件IIC驱动0.96寸OLED屏幕
  • 【Linux指南】文件管理高级操作(复制、移动、查找)
  • GO 语言学习 之 代码风格
  • 时序数据库IoTDB数据导入与查询功能详解
  • 「ECG信号处理——(18)基于时空特征的心率变异性分析」2025年6月23日
  • IDEA中如何为 Spring Boot 项目添加 VM 参数?
  • 微服务架构下的分布式事务管理
  • CSS 中aspect - ratio属性的用途及应用
  • 【面板数据】上市公司投资者保护指数(2010-2023年)
  • 兆瓦闪充技术革命:解码新能源汽车补能赛道的技术跃迁与从业机会图谱
  • LNMP 一键部署脚本 shell脚本
  • Postgresql中不同数据类型的长度限制
  • 基于springboot+uniapp的“川味游”app的设计与实现7000字论文
  • HarmonyOS NEXT应用元服务布局优化ArkUI框架执行流程
  • Java性能优化权威指南-操作系统性能监控
  • RSYNC+IONTIFY数据实时同步
  • ISCSI存储
  • 从java角度理解io多路复用和redis为什么使用io多路复用
  • 品牌控价需要数据支撑与高效治理双驱动
  • 前端手写题(一)
  • MySQL基础函数篇
  • 黑马python(十三)
  • python高校教务管理系统
  • Rust智能指针演进:从堆分配到零复制的内存管理艺术
  • 算法与数据结构:动态规划DP
  • Windows11系统自定义关闭更新