当前位置: 首页 > news >正文

爬虫逆向开发教程1-介绍,入门案例

爬虫前景


在互联网的世界里,数据就是新时代的“黄金”。而爬虫,就是帮助我们淘金的“工具”。随着互联网的不断发展,数据量呈现指数级的增长,在数据为王的时代,有效的挖掘数据和利用,你会得到更多东西。

学完爬虫你可以从事爬虫开发的工作,一个3-5年的爬虫工程师可以拿20k以上。相比Java,爬虫竞争少,好就业。

同时你也可以做爬虫兼职,每月能挣个大几千。

接下来我们正是学习爬虫。

 

什么是爬虫?

爬虫,顾名思义,就是像“爬行动物”一样在互联网上爬来爬去,收集信息的程序。它主要通过特定的算法,自动地从一个或多个网页开始,按照预设的规则下载并提取所需要的数据。简单来说,爬虫就是一个自动化的信息搜集工具。

从编程的角度说:用代码代替人去模拟浏览器手机去执行执行某些操作。

例如:

  • 自动登录钉钉,定时打卡

  • 去91自动下载图片/视频

  • 去京东抢茅台

e3058fbb98a44321b96998ab73d5d4a4.png

分析&模拟

分析一个网址,用requests请求就可以实现。

分析:基于谷歌浏览器去分析。

模拟:基于requests模块发送请求。

pip3.11 install requests

案例一

抓取数据的 username 和 标题

738cdfd5a7644b7f8c05209e915b87a7.png

import requests
import jsonres = requests.get(url='https://api.huaban.com/search/file?text=%E5%86%99%E7%9C%9F&sort=all&limit=40&page=1&position=search_pin&fields=pins:PIN,total,facets,split_words,relations,recommend_topics'
)#print(res.text)
data = json.loads(res.text)
pin_list = data['pins']
for item in pin_list:print(item['user']['username'], item['raw_text'])

抓取结果:

73ebf170bf114c7da15f2c14cfe20a50.png

 

http://www.lryc.cn/news/283779.html

相关文章:

  • 时序分解 | Matlab实现CEEMDAN+PE自适应噪声完备集合经验模态分解+排列熵计算
  • Oracle命令大全
  • 目标检测--01
  • MyBatisPlus学习笔记三-核心功能
  • 【并发编程系列】putIfAbsent和getOrDefault用法
  • 人力资源智能化管理项目(day01:基础架构拆解)
  • JAVA ORM Bee的设计模式分析
  • go语言(三)----函数
  • 鸿蒙原生应用/元服务开发-延迟任务说明(一)
  • 正信晟锦:借钱一直都不还可以起诉吗
  • npm run dev 启动vue的时候指定端口
  • 深度学习|16.1 词表示、embedding
  • .NetRSA签名(调的JAVA的接口)
  • CSS||选择器
  • 几种常见的算法
  • 原生的cURL函数而不是 tp6框架的Http类,curl_init()、curl_setopt()和curl_exec()等cURL函数
  • Win10下在Qt项目中配置SQlite3环境
  • Sentinel 轨道数据及下载
  • MD5 加密
  • 在 Excel 中将列数据用单引号括起来并添加分隔符的解决方案
  • 技术硬实力,阿里巴巴为什么要开源Spring Cloud Alibaba?
  • 2024 前端高频面试题之 HTML/CSS 篇
  • 实现将信息作为txt,pdf,图片的形式保存到电脑~
  • 服务器变矿机,该如何应对?
  • 2018年认证杯SPSSPRO杯数学建模A题(第一阶段)海豚与沙丁鱼全过程文档及程序
  • 【Webpack】预处理器 - 常用loader介绍
  • lodash 的 _.groupBy 函数是怎么实现的?
  • (2024,ViM,双向 SSM 骨干,序列建模)利用双向状态空间模型进行高效视觉表示学习
  • docker容器和常用命令
  • 【征服redis9】快速征服lua脚本