当前位置: 首页 > news >正文

Java 数据抓取

大家好我是苏麟 , 今天聊聊数据抓取 . 

大家合理使用

注意,爬虫技术不能滥用,干万不要给别人的系统造成压力、不要侵犯他人权益!

数据抓取

实质上就是java程序模拟浏览器进行目标网站的访问,无论是请求目标服务器的接口还是请求目标网页内容,都是要在java程序中对数据进行解析。最简单的抓取方式有httpclient请求目标服务器接口,jsoup请求目标页面内容,把请求的数据进行解析然后入库。另外要做好爬取的实时监控,如果URL请求失败3次,就放弃该URL的抓取。

获取不同类型的数据源

数据抓取流程

1.分析数据源,怎么获取?
2.拿到数据后,怎么处理?
3.写入数据库等存储

数据抓取的几种方式

1.直接请求数据接口(最方便),可使用 HttpClient,OKHttp,RestTemplate,Hutool(https://hutool.cn/)

等客户端发送请求

2.等网页渲染出明文内容后,从前端完整页面中解析出需要的内容

3.有一些网站可能是动态请求的,他不会一次性加载所有的数据,而是要你点某个按钮、输入某个验证码才会显示出数据。可使用无头浏览器:selenium、nodejs puppeteer

Hutool 工具 : 入门和安装 (hutool.cn)

HttpClient : Apache HttpComponents – HttpClient Overview

OKHttp : Overview - OkHttp (square.github.io)

注意,爬虫技术不能滥用,干万不要给别人的系统造成压力、不要侵犯他人权益!

获取文章

内部没有,可以从互联网上获取基础数据=>爬虫

'一般的网站会发出http请求我们找到路径 , 我们在IDEA里调用发送http请求的工具就好了 . 

在代码里根据自己的需求完成操作 .


这期就到这里 , 下期见!

http://www.lryc.cn/news/291451.html

相关文章:

  • 深度学习之处理多维特征的输入
  • 西瓜书读书笔记整理(十二) —— 第十二章 计算学习理论(下)
  • 初探分布式链路追踪
  • 闭包的理解?闭包使用场景
  • openssl3.2 - 帮助文档的整理
  • 中移(苏州)软件技术有限公司面试问题与解答(5)—— Linux进程调度参数调优是如何通过代码实际完成的1
  • 初识C语言·文件操作
  • 跨境卖家:如何利用自养号测评抢占市场先机?
  • 开发手札:Github Timeout 22
  • 学习鸿蒙基础(3)
  • 2024/1/27 备战蓝桥杯 1-2
  • 【PyQt】02-基本UI
  • 无需 Root 卸载手机预装软件,精简过的老年机又行了
  • 【Spring连载】使用Spring Data访问Redis(一)----快速指南
  • Redis 学习笔记 2:Java 客户端
  • React Native
  • 分布式搜索引擎_学习笔记_3
  • 机器学习系列——(二)主要任务
  • 十分钟快速上手Spring Boot与微信小程序API接口的调用,快速开发小程序后端服务
  • 理想架构的高回退Doherty功率放大器理论与ADS仿真-Multistage
  • <网络安全>《11 网络安全审计系统》
  • 飞桨paddlespeech语音唤醒推理C INT8 定点实现
  • go 面试题分享
  • 华为VRP系统简介
  • SpringMVC实现对网页的访问,在请求控制器中创建处理请求的方法
  • c++循环解释
  • Hadoop3.x基础(2)- HDFS
  • 04 避免 Latch 的产生
  • 嵌入式学习第十四天!(结构体、共用体、枚举、位运算)
  • Unix/Linux上的五种IO模型