当前位置: 首页 > news >正文

项目十二:简单的python基础爬虫训练

许久未见,甚是想念,今日好运,为你带好运。ok,废话不多说,希望这门案例能带你直接快速了解并运用。🎁💖

基础流程
第一步:安装需要用到的requests库,命令如下
pip install requests
第二步:随意找个目标网址
url = '目标网址'
第三步:发送请求get响应
req = requests.get(url)
第四步:打印响应信息
print(req_text)

完整代码如下

import requests #导入库
url = 'http://gitbook.cn/' #目标网址
req = requests.get(url) #发送请求
print(req.text) #打印信息

输出结果

ok,这四步流程就是走完了,接下来就是怎么把爬取的数据保存下来,那么继续往下看。

存储数据

存储数据的格式有很多种,例如csv、html、spl、xls等,全看个人意愿选择。基本代码如下

with open('./文件名称路径', '文件操作模式', encoding = '编码格式') as fp:fp.write(page_text) #括号内容为变量,包含要写入的文本内容

最终代码如下

import requests # 导入requests模块
url = 'https://www.sogou.com' # 要爬取的网址
req = requests.get(url) # 发起请求
page_text = req.text # 获取网页内容
print(page_text) # 此行代码可以不加,看个人喜好,不影响程序运行
with open('./sogou.html', 'w', encoding = 'utf-8') as fp: # 保存网页内容到本地fp.write(page_text) # 写入文件

输出结果:

这些简单的爬虫流程我们从爬取数据到存储数据就是做完了,是不是很简单啊,当然,对任何事物还是要保持敬畏之心和上进之心。

我是好运,想要好运,今日分享,到此一游

http://www.lryc.cn/news/351525.html

相关文章:

  • OpenGL学习入门及开发环境搭建
  • three.js能实现啥效果?看过来,这里都是它的菜(08)
  • SpringBoot(九)之整合mybatis
  • 【实战教程】使用Spring AOP和自定义注解监控接口调用
  • 算法学习之:Raft-分布式一致性/共识算法
  • 彩色进度条(C语言版本)
  • C#和C++有什么区别?
  • 微信小程序报错:notifyBLECharacteristicValueChange:fail:nodescriptor的解决办法
  • 富格林:可信攻略阻止遭遇欺诈
  • 搭建淘宝扭蛋机小程序:技术选型与最佳实践
  • 【线性回归】梯度下降
  • GMSL图像采集卡,适用于无人车、自动驾驶、自主机器、数据采集等场景,支持定制
  • docker不删除容器更改其挂载目录
  • K8s Service 背后是怎么工作的?
  • ClickHouse配置与使用
  • 将某一个 DIV 块全屏展示
  • K8S集群再搭建
  • 工具-博客搭建
  • 贪心算法:合并区间
  • DFA 算法
  • Web(数字媒体)期末作业
  • 展现金融科技前沿力量,ATFX于哥伦比亚金融博览会绽放光彩
  • html 根字号 以及 设置根元素font-size:calc(100vw/18.75)、元素rem实现自适应
  • size_t无符号数相关知识点
  • 深度学习之基于Tensorflow+Flask框架Web手写数字识别
  • 2024电工杯B题食谱评价与优化模型思路代码论文分析
  • blender安装cats-blender-plugin-0-19-0插件,导入pmx三维模型
  • [源码+搭建教程]西游伏妖篇手游_GM_单机+和朋友玩
  • windows、mac、linux中node版本的切换(nvm管理工具),解决项目兼容问题 node版本管理、国内npm源镜像切换
  • 【MySQL精通之路】全文搜索-布尔型全文搜索