当前位置: 首页 > news >正文

爬虫(bilibili热门课程记录)

什么是爬虫?程序蜘蛛,沿着互联网获取相关信息,收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm(免费且够用)

    pycharm安装中文插件(安装后重启pycharm即可)

3、如果向博主一样需要直接打开文件运行,可能需要添加一下解释器

 二 爬虫的流程

1、获取网页内容(浏览器会将内容渲染成更直观的页面,而程序获得的网页是一串代码)

http请求(python request实现)

2、解析网页内容(在全面的内容中把想要的数据提取出来)

html格式 (python Beautiful Soup库)

3、储存或分析数据 

注意事项

1、请求数量和频率不要太高(无异于DDoS攻击)

2、有反爬限制(例如验证码)就不要强行突破

 三、什么事HTTP请求和响应

HTTP(Hypertext Transfer Protocol超文本传输协议)

HTTP请求

GET方法:获得数据

POST方法:创建数据

七、什么是HTML网页结构

网页三大要素:

(1)HTML定义网页的结构和信息(爬虫最需要关心的)

(2)CSS  定义网页的样式 //网站背景 样式

(3)JavaScript 定义用户和网页的交互逻辑

<!DOCTYPE HTML>
<html><body><h1>这是一个标题</h1><p>这是一段文字这是一段文字这是一段文字<p></body>
<!html>

显示网页源代码

mac用户 先在safari高级选项中设置,然后在开发中打开

 七、HTML常见标签

7.1 标题 数字越小,字号越大

<h1> 这是一个一级标题 </h1>
<h2> 这是一个二级标题 </h2>
<h3> 这是一个三级标题 </h3>
<h4> 这是一个四级标题 </h4>
<h5> 这是一个五级标题 </h5>
<h6> 这是一个六级标题 </h6>

7.2 文本段落

<p>给岁月<br>以文明</p>
<p>而不是给文明以岁月</p>
<br>   //是强制换行
<b> </b> //加粗
<i> </i> //斜体
<u> </u> //下划线
<img src="链接" width=“500px”> //图片
<a href="https://...">我的主页</a> //超链接

7.3 容器

 

 7.4 有序列表ordered list/无序列表unordered list

<ol> //有序列表<li>语文</li><li>数学</li><li>英语</li>
</ol><ul> //无序列表<li>语文</li><li>数学</li><li>英语</li>
</ul>

7.5 表格行

7.6 class属性

http://www.lryc.cn/news/142007.html

相关文章:

  • 14-模型 - 增删改查
  • C#与西门子PLC1500的ModbusTcp服务器通信3--搭建ModbusTcp服务器
  • Linux系统编程:线程控制
  • 基于Java+SpringBoot+Vue前后端分离纺织品企业财务管理系统设计和实现
  • 搭建开发环境-Windows
  • 【 Python 全栈开发 - 人工智能篇 - 45 】集成算法与聚类算法
  • SSM商城项目实战:账户充值功能实现
  • wireshark工具pcap文件转换
  • Python+TinyPNG熊猫网站自动化的压缩图片
  • 【Linux】socket 编程基础
  • openGauss学习笔记-51 openGauss 高级特性-列存储
  • ReactNative 密码生成器实战
  • 开始MySQL之路——外键关联和多表联合查询详细概述
  • 无涯教程-PHP - intval() 函数
  • 2023年国赛数学建模思路 - 案例:粒子群算法
  • 【1++的数据结构】之map与set(一)
  • Ubuntu断电重启后黑屏左上角光标闪烁,分辨率低解决办法,ubuntu系统display只有4:3 怎么办?太卡
  • Java 微服务当中POST form 、url、json的区别
  • repo 常用命令汇总——202308
  • [Linux]命令行参数和进程优先级
  • Android13新特性之通知权限提升
  • 206. 反转链表 (简单系列)
  • 攻防世界-Fakebook
  • 0基础入门C++之类和对象下篇
  • ECMAScript 2023
  • 爬虫实战之使用 Python 的 Scrapy 库开发网络爬虫详解
  • 【面试题】UDP和TCP有啥区别?
  • 字节实习后端面试总结(C++/GO)
  • linux 自动登录SSH
  • 量化:pandas基础