当前位置: 首页 > news >正文

通用信息抽取技术UIE产业案例解析,Prompt 范式落地经验分享!

想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”?

想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容?

想通过聚合相似事件准确地归纳出特征标签?

……

想了解UIE技术在产业中的实战落地经验?通用信息抽取技术 UIE 产业案例分享来了!

近期Prompt 范式备受关注,实际上,Prompt 思想在产业界已经有了一些成功的应用案例。由中科院软件所和百度共同提出了大一统诸多任务的通用信息抽取技术UIE(Universal Information Extraction),基于 Prompt 思想,将希望抽取的 Schema 信息转换成“线索词”(Schema-based Prompt)作为模型输入的前缀,使得模型理论上能够适应不同领域和任务的 Schema 信息,并按需抽取出线索词指向的结果,从而实现开放域环境下的通用信息抽取。在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能[1]。

截止目前,UIE 系列模型已发布UIE、UIE-X、UIE-senta三大模型,凭借其强大的零样本与小样本能力多任务统一建模能力,成为业界在信息抽取、情感分析等任务上的首选方案。

  • 2022年5月,飞桨PaddleNLP结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0 ,发挥 UIE 在中文任务上的强大潜力,推出首个面向通用信息抽取的产业级技术方案[2] 。

  • 2022年11月,UIE 新增文档信息抽取能力——UIE-X[3],OCR、版面分析、跨模态文档信息抽取能力一应俱全。UIE-X 基于文心 ERNIE-Layout[4] 跨模态布局增强预训练模型,集成了 PaddleOCR[5] 的 PP-OCR、PP-Structure 版面分析等领先能力。

  • 2022年12月,PaddleNLP 以 UIE 为训练底座,在大量情感分析数据集上进一步训练,增强了模型对于情感知识的处理能力,推出基于 UIE 的情感分析方案(下表简写UIE-senta)[6],覆盖句子级情感极性分类、属性抽取、观点抽取、属性级情感极性分类等多项情感任务,且解决了属性聚合和隐性观点抽取难题,并提供情感分析结果可视化能力。

2ce31d1b03d35992e95bcac8c22a8e81.jpeg

(图:UIE 系列模型介绍)

来自云南能投财务服务有限公司黑蚁资本的两位讲师将带来精彩课程,解析UIE技术在多领域的应用场景,分享落地实战经验。

2月28日、3月1日,飞桨直播间、B站直播间,两场连播,不见不散!

53ec7d9d5b7f7aa2ea8e11b509ab4494.jpeg

课程介绍

2月28日 【金融】复杂单据信息抽取——财务系统智能化

钟榆星 | 云南能投财务服务有限公司

财务管理是企业管理的重要组成部分,财务人员常常需要将业务单据表格中的数据通过人工填制到财务系统里,这往往费时费力,且容易产生错误。云南能投财务服务有限公司(以下简称云南能投),成立于2020年4月,是云南省能源投资集团有限公司全资子公司。为有效支撑集团财务管控落地执行,起到支持集团国际化发展、战略决策的作用,云南能投技术支持部利用PaddleNLP提供的文档信息抽取全流程解决方案,开发了基于UIE-X的表格信息抽取方案,实现复杂结构表格的关系型抽取,帮助业务、财务将常用表格快速导入业务系统,取代人工手录,高效推动了财务共享智能提单业务的快速落地。

a88c82176b48a74d665510fcd9c36bc2.jpeg

(图:云南能投基于 UIE-X 开发了表格信息抽取方案)

3月1日 【零售】客户意见洞察促进消费品牌经营转型

Jeru | 黑蚁资本

黑蚁资本,是一家深耕消费领域投资的企业,成立之初就决心让“投后服务”成为机构的核心能力之一,而“数字化”正是黑蚁服务被投企业的重要内容。随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化手段优化经营成为餐饮企业降本增效的关键。为了帮助被投企业提升评价数据的处理效率,黑蚁投后数字化团队基于 UIE 开发了用户评论洞察系统,帮助品牌高效深入了解用户反馈,自动抽取出高价值信息,实现量化统计分析,从而降低经营成本,优化产品和服务,提升市场竞争力。

0a1437c88f4541696204d5477490b2de.gif

(图:黑蚁资本基于 UIE 开发了用户评论洞察系统)

技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。

文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。

32efe97c69beb184d5c03e5911bfa0d1.jpeg

从技术研发到落地应用,大模型的发展已经进入产业落地的关键期,欢迎前往文心大模型官网了解详情:https://wenxin.baidu.com/

相关项目

PaddleNLP GitHub地址:https://github.com/PaddlePaddle/PaddleNLP

PaddleNLP Gitee地址:https://gitee.com/paddlepaddle/PaddleNLP

参考

  1. Unified Structure Generation for Universal Information Extraction

  2. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

  3. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction

  4. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

  5. https://github.com/PaddlePaddle/PaddleOCR

  6. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

http://www.lryc.cn/news/19615.html

相关文章:

  • integrationobjects/OPC AE Client ActiveX Crack
  • JavaScript HTML DOM 简介
  • interrupt多线程设计模式
  • Spring IoC 和 Spring AOP
  • taobao.top.oaid.merge( OAID订单合并 )
  • Python自动获取海量ip,再也不用愁被封啦~
  • XLua学习笔记 { }
  • 推荐程序员收藏的几个技术社区以及工具网站
  • StopWatch计时器
  • 常见web安全漏洞-暴力破解,xss,SQL注入,csrf
  • 11个案例讲透 Python 函数参数
  • 《分布式技术原理与算法解析》学习笔记Day21
  • 开源shell脚本系列-检查etcd集群可用性
  • 资源限制类题目七大技巧 解决所有大数据资源限制类问题
  • adb命令导出手机已安装的android应用apk文件
  • 华为CT6100双千M路由记录
  • 【AcWing-Python-785】快速排序
  • 从 JDK 8 到 JDK 18,Java 垃圾回收的十次进化
  • 虚拟机VMware Workstation Pro环境搭建
  • 【华为OD机试模拟题】用 C++ 实现 - 敏感字段加密(2023.Q1)
  • 关于Java方法重写的一些反思
  • 【C语言进阶】文件的顺序读写、随机读写、文本文件和二进制文件、文件读取结束的判定以及文件缓冲区相关知识
  • 图形编辑器:拖拽阻塞优化
  • c++ 的 Eigen库写 AX=XB的矩阵求解代码
  • 正点原子linux驱动篇
  • MATLAB绘制雷达图/蜘蛛图
  • 算法入门,十字路口选择的案例,如果是南方,则向前行
  • 父传子与子传父步骤
  • Java concurrency - Task Execution
  • 浅谈BOM