当前位置: 首页 > news >正文

文档向量化工具(一):Apache Tika介绍

Apache Tika是什么?能干什么?

Apache Tika是一个内容分析工具包。

该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。

所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。

基于Apache License 2.0

Apache Tika releases are available under the Apache License, Version 2.0

Apache Tika的安装

Apache Tika支持多种方式与业务集成。

Build artifacts说明

tika-core/target/tika-core-*.jar
Tika核心库。包含Tika的核心接口和类,但没有解析器实现。

tika-parsers/tika-parsers-standard/tika-parsers-standard-package/target/tika-parsers-standard-package-*.jar

Tika解析器。基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tika-parser-sqlite3-package和tika-parser-scientific-package科学包或其他解析器模块。

tika-app/target/tika-app-*.jar

Tika应用程序。将上述组件和标准解析器库组合成一个具有GUI和命令行接口的可运行jar。

tika-server/tika-server-standard/target/tika-server-standard-*.jar

Tika JAX-RS REST应用程序。这是一个Jetty web服务器,运行Tika REST服务。

tika-bundles/tika-bundle-standard/target/tika-bundle-standard-*.jar

Tika捆绑包。一个OSGi捆绑包,它将tika解析器与非OSGified解析器库相结合,使它们易于在OSGi环境中部署。

tika-eval/tika-eval-app/target/tika-eval-app-*.jar

Tika评估模块。命令行工具,用于评估Tika的输出或比较两个不同版本的Tika或其他文本提取包的输出。

试用建议用app模式,命令行直接运行。下载地址:

https://dlcdn.apache.org/tika/2.9.1/tika-app-2.9.1.jar​​​​​​​

Apache Tika试用

java -jar tika-app-2.9.1.jar --gui

启动图形界面

直接拖拽一个文件进去

若文件较大,或内容复杂(包括图,表)等,处理过程会比较慢。

GUI会卡主,没关系,等一会就好了

可以切换不同模式显示输出内容。

​​​​​​​

http://www.lryc.cn/news/235314.html

相关文章:

  • 学习c#的第二十一天
  • Michael Jordan最新报告:去中心化机器学习中的契约、不确定性和激励
  • 3ds Max渲染用专业显卡还是游戏显卡?
  • airlearning-ue4安装的踩坑记录
  • uniapp优化h5项目-摇树优化,gzip压缩和删除console.log
  • Pycharm之配置python虚拟环境
  • 如何使用MybatisPlus进行数据分页显示
  • 代码随想录 Day49 单调栈01 LeetCode LeetCodeT739每日温度 T496 下一个最大元素I
  • 高可用--限流熔断降级
  • win10电脑无法联网,设置IPv4,点击属性无法打开,闪退
  • 【数据结构】邻接表与邻接矩阵的转换
  • VR智慧景区:VR赋能文旅产业,激活消费潜能
  • Spring Boot EasyPOI 使用指定模板导出Excel
  • postgresql:记录表膨胀引起的io问题的处理
  • Windows下安装RabbitMQ
  • 广州华锐互动VRAR:利用VR开展刑事案件公安取证培训,沉浸式体验提升实战能力
  • 消息消费过程
  • 使用Lychee搭建个人图片存储系统并进行远程访问设置实现公网访问本地私人图床
  • 12-2- DCGAN -简单网络-卷积网络
  • Redis持久化策略之RDB与AOF
  • Python学习笔记--初识 Python 正则表达式
  • webAPP基础学习
  • RIP路由信息协议
  • kubernetes 高可用集群
  • java实现插入排序
  • 深度学习之基于YoloV5血红细胞检测识别系统
  • 8、可视化高斯滤波器并完成高斯滤波
  • Linux MMC子系统 - 5.eMMC 5.1工作模式-引导模式
  • 2342. 数位和相等数对的最大和 --力扣 --JAVA
  • linux如何重置root密码