当前位置: 首页 > news >正文

Python入门第5篇(爬虫相关)

目录

爬虫初步说明

html相关基础

urllib之读取网页内容

http相关基础

requests之webapi调用


爬虫初步说明

爬虫,一句话来说,即模拟浏览器爬取一些内容,如自动下载音乐、电影、图片这种的

具体可能是直接访问网页进行解析,也可能是调用webapi直接获取数据,后者应该更多一些

html相关基础

html、js、css构成了html的三要素

urllib之读取网页内容

from urllib.request import urlopenurl='http://www.baidu.com'
con=urlopen(url)
cons=con.read()with open('./output.html','wb') as f:f.write(cons)print(cons)

这里是打开了百度首页,然后写入到一个本地html文件,注意这里使用wb方式写入(字节流)

注意:需要通过pip安装urllib 

http相关基础

三次握手

四次挥手

http方法:get、post

requests之webapi调用

import requests
import jsondef fanyi(inputStr):txt=input("请输入要翻译的内容:")url="https://fanyi.baidu.com/sug"data={"kw":txt}result=requests.post(url,data=data)# print(result.text)# printInfo(result.json())printInfo(result.json()["errno"])# printInfo(type(result.json()))print("翻译结果:")for i in range(len(result.json()["data"])):printInfo(str(i+1)+":"+result.json()["data"][i]["v"])if __name__=="__main__":fanyi("我的翻译机器人")pass

这里一百度翻译接口为例,通过输入待翻译内容,然后调用翻译接口,将接口返回结果进行解析,输出翻译结果

注意:需要通过pip安装requests 

主要用到的就是get、post

这里需要注意header、body这些参数,要根据实际网页请求的内容来,也可以先用postman、apipost测试

再一个需要注意的是,对于返回结果的解析,需要先清楚其类型,才可以更好的解析,如使用type()先打印下类型,就知道下一步要怎么解析了

http://www.lryc.cn/news/261926.html

相关文章:

  • 单元测试二(实验)-云计算2023.12-云南农业大学
  • Axure动态面板的使用以及示例分享
  • 容斥原理的并
  • JavaSE第7篇:封装
  • mysql数据库相关知识【MYSQL】
  • android studio 创建按钮项目
  • gitee提交代码步骤介绍(含git环境搭建)
  • 【MyBatis-Plus】常用的插件介绍(乐观锁、逻辑删除、分页)
  • DApp测试网络Ganache本地部署并实现远程连接
  • 好用的硬盘分区工具,傲梅分区助手 V10.2
  • 【华为鸿蒙系统学习】- HarmonyOS4.0开发|自学篇
  • Qt图像处理-Qt中配置OpenCV打开本地图片
  • HTML中RGB颜色表示法和RGBA颜色表示法
  • Openwrt源码下载出现“The remote end hung up unexpected”
  • Spring定时任务动态更改(增、删、改)Cron表达式方案实例详解
  • 常用登录加密之Shiro与Spring Security的使用对比
  • 获取文件路径里的文件名(不包含扩展名)
  • HiveSql语法优化二 :join算法
  • Leetcode—459.重复的子字符串【简单】
  • Mac安装Typora实现markdown自由
  • 前后端传参格式
  • 【后端学前端】第三天 css动画 动态搜索框(定位、动态设置宽度)
  • 51.0/表单(详细版)
  • 动态规划(Dynamic Programming)
  • linux使用文件描述符0、1和2来处理输入和输出
  • how to write and run .ps1
  • 如何在PHP中处理跨域请求?
  • spring boot 配置多数据源 踩坑 BindingException: Invalid bound statement (not found)
  • 【产品】Axure的基本使用(二)
  • Python语言学习笔记之十(字符串处理)