当前位置: 首页 > news >正文

「AIGC算法」readLink实现url识别pdf、网页标题和内容

本文主要介绍AIGC算法,readLink实现url识别pdf、html标题和内容

一、设计思路

  • 识别url是pdf或者网页
  • 网页处理逻辑,使用cheerio解析网页
  • PDF处理逻辑,使用pdf-parse解析PDF文件
  • 自定义的函数来提取标题和内容

二、可执行核心代码

const express = require("express");
const axios = require("axios");
const ytSearch = require("yt-search");
const cheerio = require("cheerio");const { PDFDocument } = require("pdf-lib");
const pdfParser = require("pdf-parse");const app = express();
const port = 3000;app.get("/read-link", async (req, res) => {const url = req.query.url;if (!url) {return res.status(400).send("URL is required");}try {const response = await axios.get(url, { responseType: "arraybuffer" });const contentType = response.headers["conte
http://www.lryc.cn/news/349938.html

相关文章:

  • Vue3+ts(day06:路由)
  • springboot集成dubbo实现微服务系统
  • idea使用gitee基本操作流程
  • Docker容器里面有什么东西?
  • vue基础+高级用法
  • 鸿蒙应用布局ArkUI【基础运用案例】
  • GD32F103RCT6/GD32F303RCT6-UCOSIII底层移植(1)工程建立
  • 在本地设备上配置 Git 忽略特定文件
  • cin.ignore()函数和stoll函数
  • win11快速安装mysql数据库系统
  • C# WinForm —— 21 RichTextBox 使用
  • 【数据结构】堆(超详细)
  • 常用正则 JS 持续更新
  • YOLO v6 iou_loss dfl_loss一直为0
  • FreeRTOS【4】线程挂起和恢复
  • CPU占用率过高排查
  • 关于 vs2019 c++20 规范里的 STL 库里模板 decay_t<T>
  • android C++打印堆栈
  • MySQL Undo Log、Redo Log、bin Log
  • vld.ini配置文件说明
  • NSS【web】刷题
  • 将TailwindCSS默认单位rem转换为px
  • 命令模式(命令)
  • Android ashmem 原理分析
  • redis报错500
  • GPT-3
  • MATLAB数组
  • JAVA实验项目(二): 抽象类、接口的定义与使用
  • JVM内存模型最新面试题(持续更新)
  • Nginx wss to ws 折腾记