当前位置: 首页 > news >正文

写爬虫代码抓取Asterank中小行星数据

2024年5月4日

问题来源

解决方案

 

 

 回顾2023年7月14日自己写的爬虫代码

import requests
import re
import pandas as pd
texts=[]
def getData(page):#每页评论的网址url='https://item.jd.com/51963318622.html#comment'#添加headers,伪装成浏览器headers={'User-Agent':''}#获取响应信息response=requests.get(url,headers)page_text=response.text#通过requests获得了网页的源代码,就可以对源代码字符串使用正则表达式来提取文本信息#定义正则,获取商品信息,py的正则表达式模块为re(regular expression)ex='"guid":.*?,"content":"(.*?)"'result=re.findall(ex,page_text)#把获取到的评论放入之前创建的空列表中texts.extend(result)#创建一个空的数据表,保存成exceldf=pd.DataFrame()#导入数据到excel并保存df['评论']=textsdf.to_excel('京东商品评论.xlsx')#爬第一页和第二页,重复执行主函数中的gatData函数
if __name__=="_main_":for i in range(0,3):getData(i)

数据处理(设计器和python )基本都会遇到的知识点:(实训笔记)

1.循环:设计器:计次循环=for i in range(在计次之前需要设置一个变量)

 2.变量

     通过re和??进行数据解析,解析的方法是正则表达式

     正则表达式会隐藏在文件中的对应请求中

      respons就是一个字典,根据键获取对应的值

     写入excel或者数据库,

     创建游标的方式执行SQL语句,就是insert INto、、插入

尝试根据去年的代码实现小行星数据抓取:BS4-

Beautiful Soup4是Python第三方库,用来从HTML和XML中提取数据

from bs4 import BeautifulSoup#解析源代码生成BeautifulSoup对象:
soup=BeautifulSoup(网页源代码,'解析器')
#eg:   soup=BeautifulSoup(source,'html.parser')
#      soup=BeautifulSoup(source,'lxml')

查找内容

info=soup.find(class='test')

plus:HTML基础

HTML 就是网页源代码,是一种结构化的标记语言。HTML可以描述一个网页的结构信息。

HTML与CSS(层叠样式表),JavaScript一起构成了现代互联网的基石。

来看一段html的示例代码:

<html><head><title>测试</title></head><body><div class="useful"><ul><li class="info">我需要的信息1</li><li class="info">我需要的信息2</li><li class="info">我需要的信息3</li></ul></div><div class="useless"><ul><li class="info">垃圾1</li><li class="info">垃圾2</li></ul></div></body></html>

html的层级关系 

使用BeautifulSoup4爬取网站

https://www.damai.cn/projectlist.do中的的演出信息,将结果保存到CSV文件

我的目标是抓取当Name='Inputname'时 ,Est.profit那一列的数据

 

晚上试了很久,都没有成功运行。(GTP不太行)

第二天早上继续尝试。 

爬爬爬(一)——网页表格(四种方法) - 知乎 (zhihu.com)

每行是一个tr标签,每一个内容是tr下的td标签

在 soup 里循环遍历所有的元素并存储在变量中

写了两天爬虫代码,没弄出来。好想寺

http://www.lryc.cn/news/345518.html

相关文章:

  • leetCode81. 搜索旋转排序数组 II
  • 在Ubuntu上怎么查看安装了哪些包?
  • Navicat连接远程数据库时,隔一段时间不操作出现的卡顿问题
  • 修改页签标题 + 页签图表
  • QT---day5,通信
  • 设计模式: 工厂模式
  • Java 多线程补充
  • 【Java基础】Maven继承
  • java技术总结
  • C# WinForm —— 12 ListBox绑定数据
  • 自动驾驶主流芯片及平台架构(二)特斯拉自动驾驶芯片平台介绍
  • powershell@管道符过滤的顺序问题@powershell管道符如何工作
  • SMI接口
  • 【C++】转换构造函数和类型转换函数
  • 全栈开发之路——前端篇(5)组件间通讯和接口等知识补充
  • 4.【Orangepi Zero2】Linux定时器(signal、setitimer),软件PWM驱动舵机(SG90)
  • K8S哲学 - 资源调度 HPA (horizontal pod autoScaler-sync-period)
  • uniapp/微信小程序实现加入购物车点击添加飞到购物车动画
  • 电商大数据的采集||电商大数据关键技术【基于Python】
  • H264 SP帧等知识笔记
  • 流量印钞机:每日稳定收入1500+
  • Tomcat中服务启动失败,如何查看启动失败日志?
  • React19学习-初体验
  • 【UE5】数字人基础
  • OSTEP Projects:KV
  • JAVA学习笔记(第三周)
  • linux 内核驱动 -- reboot -f 导致内核死机 而 reboot则不会引起问题
  • 【vue-echarts】 报错问题解决 “Error: Component series.pie not exists. Load it first.“
  • MySQL慢查询SQL优化
  • 【嵌入式DIY实例】-DDS信号生成器