当前位置: 首页 > news >正文

爬虫(学习笔记)

python爬虫

  • 一、Python基础回顾
    • 变量类型
    • 其他操作
    • 面向对象编程
  • 二、爬虫流程
  • HTTP协议
  • HTML
  • 爬虫demo01
  • 爬虫demo02


  • 学习资料
    Python+爬虫
    爬虫实战案例
    AI学堂爬虫教学

一、Python基础回顾

变量类型

可变类型:可以进行添加、修改、删除
(列表、字典…)
不可变类型:不可以进行上述操作
(数字、字符串、元组…)

知识点阐释举例
数字
不可变类型
标准数据类型之一i整数、浮点数
字符串
不可变类型
标准数据类型之一str = “Hello World!”
len(str)求长度,包含空格print(len(str))
结果为12
str[1]字符串索引,从0开始print(str[0]) = e
str[2:7]返回字符串中第三个至第六个之间的字符串print(str[2:5]) = llo Wo
str[2:]返回从第三个字符开始的字符串print(str[2:]) = llo World!
列表
可变类型
方括号[ ]
标准数据类型之一list = [123,‘orange’,66.6,‘apple’,100]
len(list)列表中元素的个数print(len(list))
结果为5
list[1]返回列表中第二个元素print(list[0]) = orange
list[1:4]返回列表中第二个元素到第四个元素print(list[1:4]) = [‘orange’,66.6,‘apple’]
list[2:]返回从第三个元素开始至列表末尾所有元素print(list[2:]) = [66.6,‘apple’,100]
list.append(‘banana’)添加元素print(list) = [123,‘orange’,66.6,‘apple’,100,‘banana’]
list.remove(’apple‘)删除元素print(list) = [123,‘orange’,66.6,100,‘banana’]
max( )、min( )、soted( )全是数字的列表找最大值、最小值、递增排序函数函数括号中放列表名称即可,返回结果分别是数字、数字、列表
元组
不可变类型
圆括号( )
标准数据类型之一元组是不可变类型
不能进行添加、删除操作
字典
“键”不可变类型
"字典”是可变类型
标准数据类型之一
键key值value对,用键查找值
dict={“a”:“001”,
“b”:“002”,
“c”:“003”}
“键与值”之间用冒号隔开,“键值对”之间用逗号隔开
len(dict)键值对个数print(len(dict))
结果为3
dict[“a”]查找键对应的值print(dict[“a”]) = 001
dict.keys()返回所有键print(dict.keys()) = dict_keys([‘a’, ‘b’, ‘c’])
dict.values()返回所有值print(dict.values()) = dict_values([‘001’, ‘002’, ‘003’])
dict.items()返回所有键值对
添加键值对dict[“d”] = “004”print(dic) =
{‘a’: ‘001’,
‘b’: ‘002’,
‘c’: ‘003’,
‘d’: ‘004’}
删除键值对del dict[“a”]print(dict) =
检查键是否存在print(“a” in dict)
返回布尔值
True则为存在
元组作为键dict = {(“张伟”,21):“001”,
(“张伟”,34):“002”,
(“张伟”,44):“003”}
其中(张伟,xx)是不可变的元组类型
由于年龄不同,则可区分不同的张伟,并根据需要输出对应的值

其他操作

知识点阐释举例
type( )返回对象类型的函数type(None)
结果为<class ‘None Type’>
input( )从控制台获取输入,一律返回字符串
需要将结果赋值给一个变量
print中 “+” 只能用于字符串的连接
age = input(“请输入年龄:”)
print(“年龄为” + age)
强制类型转换int( )、float( )、str( )
将input的返回值改成需要的类型
age = int(input(“请输入年龄:”))
xu_age = age + 1
print(“虚岁为” + str(xu_age))
range(5,10)range(起始,终止-1)for i in range(5,10)
i 被依次赋值为5,6,7,8,9不包含10
range(1,10,2)range(起始,终止-1,步长)i 依次被赋值为1 3 5 7 9
range(5)默认起始值为0,终止值为5,步长为1
format格式化输出gpa_dict = {“a”:3.251,“b”:3.869,“c”:4.256}
for name,gpa in gpa_dict.items():
print(“{0}的绩点为{1}”.format(name,gpa))
f “你的年龄为{age}”格式化输出f加花括号加变量
def 函数名():函数定义,别忘记加冒号
按住ctrl+函数名查看具体函数实现

面向对象编程


二、爬虫流程

  1. 确定目标网站
  2. 得到该网站的 URL
  3. 对该 URL 发起请求获取页面的 HTML 代码
  4. 使用解析工具从 HTML 中获取数据
  5. 将获取到的数据保存到 JSON 或 CSV 文件中或者保存成其他格式

HTTP协议

HTML

爬虫demo01

爬虫demo02

http://www.lryc.cn/news/286232.html

相关文章:

  • 让业务满意的性能测试报告模板应该是怎样的?
  • 高防IP如何保护服务器
  • C++提高编程——STL:string容器、vector容器
  • three.js从入门到精通系列教程004 - three.js透视相机(PerspectiveCamera)滚动浏览全景大图
  • Gradle 笔记
  • flume案例
  • 信用评价研究MATLAB仿真代码
  • 网络安全产品之认识防毒墙
  • android 防抖工具类,经纬度检查工具类
  • PgSQL - 17新特性 - 块级别增量备份
  • Vue3setup()的非语法糖和语法糖的用法
  • HTTP状态信息
  • CSS之边框样式
  • k8s-helm
  • 黑马程序员JavaWeb开发|Maven高级
  • 【经验分享】MAC系统安装R和Rstudio(保姆级教程)安装下载只需5min
  • 探索设计模式的魅力:“感受单例模式的力量与神秘” - 掌握编程的王牌技巧
  • SpringCloud Aliba-Seata【上】-从入门到学废【7】
  • C# Cad2016二次开发选择csv导入信息(七)
  • [陇剑杯 2021]日志分析
  • Java面试汇总——jvm篇
  • 数据结构:完全二叉树(递归实现)
  • RK3568 移植Ubuntu
  • C++大学教程(第九版)6.34猜数字游戏 6.35 修改的猜数字游戏
  • 【立创EDA-PCB设计基础】5.布线设计规则设置
  • ElementUI简介以及相关操作
  • 内存耗尽排查思路
  • OpenCV书签 #差值哈希算法的原理与相似图片搜索实验
  • Unity中URP下获取主灯信息
  • 尝试着在Stable Diffusion里边使用SadTalker进行数字人制作