当前位置: 首页 > news >正文

AI for Science 的完美实践——科研文献的智慧化提取获得“综述性文摘”的软件开发

 实践是检验真理的唯一标准!show your codes!

1 综述性文摘的需求

再简单不过了。

甲方(综述性文摘)需求:针对项目特征或描述,从几百篇相关的科研论文(PDF)中智能提取相关内容,包括但不限于文本、上下标、图片、表格、公式,并组成一篇相关度准确、精确重现文献内容的综述性文摘。

2 基于大模型LLM的实践与教训

鉴于甲方的实力与地位,甲方短期内邀请了包括国内最顶尖的几家自认为是AI头部的企业(QW、BC、ZP、BD。。。),历时6个多月,花费无数(训练),却全部铩羽而归!

失败的主要原因是什么呢?

因为他们的技术思路都是“大模型LLM”,咱们从大模型的优势与劣势进行简单的剖析。

2.1 大模型技术路线的优势

大模型基于海量的内容进行训练,大大减少了人工干预,其优势在于(看起来)(似乎)对自然语言的理解和生成能力强,(看起来)适用范围(似乎)很广泛。大模型具备多模态能力,可以处理多种类型的数据,包括文本、图像等。

大模型在编撰(非精确的)文本、(虚拟的)场景、(物理失常的)图片与影视信息方面,具有特别显著的优势。

2.2 大模型技术路线的永远无法解决的缺陷

因为大模型是基于统计学的,其显著缺点则是,其中的知识是参数化的隐式知识,存在事实的编造,缺乏可解释性,生成内容普遍存在幻觉的现象。对于技术文献而言,无法进行内容追溯也是致命的缺陷。

因而,对于要求严谨、准确、真实、可信的工业、医学、法律场景等等,大模型就显得无能为力,毫无用处,不过是一堆玩具。

在浪费了不少资金与宝贵时间之后,甲方寻求笔者团队给与支持。

既然大模型不行,我们团队用什么技术思路呢?

3 基于知识图谱的实践与成功经验

人工智能发展过程中,基于知识表达的推理一直处于主流。

近些年发展的知识图谱技术,也是该领域的进步,更是AI的唯一未来。

我们选择知识图谱及其相关技术实现本文的需求。

3.1 知识图谱的优势

结构化知识:知识图谱以实体及其关系构成的三元组为基本单位,能够清晰地表示知识的结构。

数据真实性:知识图谱中的数据通常具有较高的真实性和可靠性。

可解释性:其内部结构接近人类认知,便于提供解释和推理。

可追溯性:知识图谱获得的信息可以进行精确的原始文献追溯。

这些正是科研看重的。

3.2 智慧化提取获得“综述性文摘”的软件开发的实践

北京联高软件开发有限公司的“智慧文摘软件AISS”是基于“知识图谱”的智能综合性文摘软件及服务。

3.2.1 软件使用过程与功能简介

构建基础知识:AISS阅读并分析若干本专业的教材(文本),将教材转为“知识图谱”,学习一些常识、通识与基本的专业知识;

构建知识图谱:AISS使用专有的技术将科技文献转为“知识图谱”;

问与答:AISS按文摘的阶段性需求,从这些文献中摘录相关度最高的内容(文本、上下标、图片、表格、公式),并组成一篇综合性文献。

附件:AISS自动提取文献相关的图片、表格,并按顺序编号与组成《附图》、《附表》。

用户参与:AISS用户可自行设计文摘的内容需求;可指定匹配度达标的文献内容数量;可指定内容的时间、地理排序方式。

更多功能请咨询联高软件。

3.2.2 相关服务及甲方支持

实践过程中,甲方参与了下面这些(简单、占用时间少)的工作:

提供资料:甲方按时间要求提供相关教材、标准;足量提供科技文献(集)的文字版本PDF;

审阅与校正:甲方安排专人对学习阶段的文摘成果进行简单的审阅;

3.2.3 实践的成果

联高团队的AISS实践不过3个月,文摘准确度达到90%,文献内容(文本、上下标、图片、表格、公式)重现率99.5%,获得了甲方的好评。甲方承诺支持继续完善系统及邀请AISS参与其他AI项目。

甲方评价

在我们对AI技术几乎失去信心时,AISS用最短的时间、最小的代价基本实现了我方的需求,确实出乎意外。

曰:

铺天盖地的AI宣传,熙熙攘攘的AI大咖,未必有能力解决实际的科研需求。

实践是检验真理的唯一标准!

http://www.lryc.cn/news/505222.html

相关文章:

  • 前端使用xlsx.js实现 Excel 文件的导入与导出功能
  • React简单了解
  • backbone 和Run-Length Encoding (RLE)含义
  • 在Centos7上安装MySQL数据库 How to install MySQL on Centos 7
  • Linux docker-20.10.9安装
  • 操作系统(13)虚拟存储器
  • 《面向对象综合训练01~05》
  • 电脑为什么会提示“msvcr120.dll缺失”?“找不到msvcr120.dll文件”要怎么解决?
  • huggingface NLP-微调一个预训练模型
  • 【BUG记录】Apifox 参数传入 + 号变成空格的 BUG
  • Spring AI API 介绍
  • 【MySQL】Linux使用C语言连接安装
  • 2024年第十五届蓝桥杯青少组C++国赛—割点
  • 【软件开发】做出技术决策
  • Airborne使用教程
  • WPF实现曲线数据展示【案例:震动数据分析】
  • EasyExcel 动态设置表格的背景颜色和排列
  • 【 C++11 】类的新功能
  • 防止SQL注入:PHP安全最佳实践
  • 自动化生产或质量检测准备工作杂记
  • 张志辰医生
  • CodeMirror 如何动态更新definemode
  • 舵机SG90详解
  • 程序设计考题汇总(四:SQL练习)
  • 明达IOT平台助力工业废水运维智能化
  • 深入理解 Ansible Playbook:组件与实战
  • JavaEE初阶——多线程(线程安全-锁)
  • Stable Diffusion 提示词语法
  • 【功能安全】安全确认
  • 在pycharm2024.3.1中配置anaconda3-2024-06环境