当前位置: 首页 > news >正文

Python爬虫(1) --基础知识

爬虫

  • 爬虫是什么? spider

是一种模仿浏览器上网过程的一种程序,可以获取一些网页的数据

基础知识

  • URL

统一资源定位符 uniform resource locator

bdce42aed53c6987a10545ea9e6a1e6.png

http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80

https: 安全的超文本传输协议 security 默认端口 443

www.example.com 域名

80 端口 port

/path/to/myfile.html 资源路径

?key1=value1&key2=value2 参数 & 表示多个参数的拼接

# 锚点

  • 前端代码
<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接
<!DOCTYPE html>
<html><head><!-- 内嵌样式 --><style type="text/css">body{background-color:yellow;}p{font-size: 30px;color: springgreen;}</style><meta charset="utf-8"><title>兰智数加学院</title></head><body><a href="www.anhuisjxy.com">点击访问</a><h1>兰智数加www.anhuisjxy.com</h1><h2>Python爬虫</h2><div><p>认识网页结构</p><ul><li>HTML</li><li>CSS</li></ul></div></body>
</html>
<!DOCTYPE html>
<html><head><style type="text/css">body{background-color: rgb(220, 226, 226);}</style><meta charset="utf-8"><title>兰智数加学院</title></head><body><h1 style="color: blue;">兰智数加www.anhuisjxy.com</h1><h2>Python爬虫</h2><p>点击下方按钮获取当前时间</p><button onclick="DisplayDate()">点击这里</button><p id="time" style="color: red;"></p><!-- script标签内部编写js代码 --><script>function DisplayDate(){document.getElementById("time").innerHTML=Date()}</script></div></body>
</html>

爬虫代码

  • 安装requests包
pip install requests
  • pip 换源
pip config set global.index-url https://pypi.mirrors.ustc.edu.cn/simple/
pip config set install.trusted-host pypi.mirrors.ustc.edu.cn
  • User-Agent: 身份标识 表示你是哪个浏览器
http://www.lryc.cn/news/403142.html

相关文章:

  • 云原生系列 - Jenkins
  • django踩坑(四):终端输入脚本可正常执行,而加入crontab中无任何输出
  • 计算机网络入门 -- 常用网络协议
  • 【LabVIEW作业篇 - 4】:属性节点赋值和直接节点赋值的区别体现
  • 【数据库系列】Parquet 文件介绍
  • A Survey on Multimodal Large Language Models综述
  • Leetcode3208. 交替组 II
  • 汇编教程2
  • 使用 git 和 GitHub 互动
  • 【Spring Boot 中的 `banner.txt` 和 `logback-spring.xml` 配置】
  • Python Linux环境(Centos8)安装minicoda3+jupyterlab
  • Python PDF Magic:合并和拆分随心所欲
  • Gmsh应用程序编程接口
  • DP 203 学习笔记
  • SQLite 事务
  • LabVIEW和Alicat Scientific质量流量计实现精确流量控制
  • 2024-07-19 Unity插件 Odin Inspector10 —— Misc Attributes
  • Go操作Redis详解
  • 钡铼Modbus TCP耦合器BL200实现现场设备与SCADA无缝对接
  • 数据分析入门:用Python和Numpy探索音乐流行趋势
  • 数仓工具—Hive语法之替换函数和示例
  • [SUCTF 2019]EasySQL1
  • elasticsearch, kibana, 6.8.18 版本下的创建索引,指定timestamp,java CRUD,maven版本等
  • 无人机侦察:二维机扫雷达探测设备技术详解
  • 未来互联网的新篇章:深度解析Web3技术
  • vst 算法R语言手工实现 | Seurat4 筛选高变基因的算法
  • 阿里通义千问大模型Qwen2-72B-Instruct通用能力登顶国内第一!
  • CH04_依赖项属性
  • CentOS 7开启SSH连接
  • 代理伺服器分類詳解