当前位置: 首页 > news >正文

爬虫学习4:爬取王者荣耀技能信息

爬虫:爬取王者荣耀技能信息(代码和代码流程)

  • 代码

  • # 王者荣耀英雄信息获取
    import time
    from selenium import webdriver
    from selenium.webdriver.common.by import By
    if __name__ == '__main__':fp = open("./honorKing.txt", "w", encoding='utf8')# 1、urlurl = "https://pvp.qq.com/web201605/herolist.shtml"#页面url# 2、发送请求driver = webdriver.Edge()#采用edge浏览器driver.get(url)#获取urltime.sleep(3)#防止被检测到爬虫爬取# 3、获取想要的信息# 获取页面信息# driver.page_source# 4、数据解析li_list = driver.find_elements(By.XPATH, "//ul[@class='herolist clearfix']/li")#获取所有的lihero_url_list = []#存储所有的跳转url数据for li in li_list:hero_url = li.find_element(By.XPATH, "a").get_attribute("href")#跳转的urlhero_url_list.append(hero_url)# 句柄的问题  先把所有第一个页面的东西存起来for url in hero_url_list:time.sleep(3)#防止被检测到爬虫爬取driver.get(url)hero_name = driver.find_element(By.XPATH, "//h2[@class='cover-name']").textdiv_list = driver.find_elements(By.XPATH, "//div[@class='skill-show']/div")# 拿到所有的技能信息fp.write(hero_name + "\n")#写入角色名称for div in div_list:js = f'document.getElementsByClassName("show-list")[{div_list.index(div)}].style.display="block"'#解除技能信息被锁driver.execute_script(js)skill_name = div.find_element(By.XPATH, "p[1]/b").textskill_desc = div.find_element(By.XPATH, "p[2]").textfp.write(skill_name + "---->" + skill_desc + "\n")print(skill_name, skill_desc)# 只爬两个看看样例# if hero_url_list.index(url) == 1:#     breakdriver.close()
    
  • 代码流程:

    • 获取页面的url

在这里插入图片描述

  • 跳转到下一界面的url

在这里插入图片描述

  • 找到希望得到的数据的位置

在这里插入图片描述

  • 采用:f’document.getElementsByClassName(“show-list”)[{被锁位置}].style.display=“block”',将不能同时出现的数据同时出现

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/406217.html

相关文章:

  • 在Ubuntu 14.04上安装和使用Memcache的方法
  • PCDN技术如何降低运营成本?
  • 服务器数据恢复—V7000存储硬盘故障脱机的数据恢复案例
  • BSV区块链在人工智能时代的数字化转型中的角色
  • android audio 相机按键音:(二)加载与修改
  • Linux grep技巧 提取log中的json数据
  • HDShredder 7 企业版案例分享: 依照国际权威标准,安全清除企业数据
  • centos系统使用mysqldump数据备份与恢复
  • 【element ui】input输入控件绑定粘贴事件,从 Excel 复制的数据粘贴到输入框(el-input)时自动转换为逗号分隔的数据
  • Chapter18 基于物理的渲染——Shader入门精要学习
  • DolphinScheduler学习
  • 我用Tauri开发的待办效率工具开源了!
  • 【黑科技】:Laravel 项目性能提升 20 倍
  • User Allocation In MEC: A DRL Approach 论文笔记
  • leetcode 69. x 的平方根
  • 基于词级ngram的词袋模型对twitter数据进行情感分析
  • Linux-Centos-改密码(单用户登陆)
  • java实现OCR图片识别,RapidOcr开源免费
  • PCB工艺边设计准则
  • CTF-NSSCTF题单[GKCTF2020]
  • redis的分片集群(仅供自己参考)
  • 自动驾驶-机器人-slam-定位面经和面试知识系列01之常考公式推导(01)
  • netty入门-5 ServerBootstrap与Bootstarp
  • JavaEE - Spring Boot 简介
  • SwiftUI革新:Xcode UI开发的新纪元
  • 22、基于共享内存的数据结构——用十个块来提高并发性
  • 【ffmpeg命令入门】实现画中画
  • 基于 LangChain+LangGraph 来实现一个翻译项目
  • javascript 如何将 json 格式数组转为 excel 表格| sheetJS
  • 网页制作技术在未来会如何影响人们的生活?