当前位置: 首页 > news >正文

结合kimi chat的爬虫实战思路

背景

想钻研一下项目组件,找找之后的学习方向。不能自以为是,所以借着网开源项目网站上公布的项目内容看一下,那些是我可以努力去学习的(入门的)。首先需要获取相关内容,于是爬取整理。

任务1:爬一个项目网站上的项目列表。

展示

在这里插入图片描述

过程:

  1. 开始是想着借助kimi chat去解析前端页面然后编写代码,但是发现生成的代码,总是跑不起来。
    前端的目录层级

  2. 去b站上学习了一下。gpt辅助爬虫
    学习了一下 爬虫常用的几个属性

  • curl(包含所有信息,header啥的) 和 har(所有操作记录)
  • 还了解到一个curl convert
    在这里插入图片描述
  1. 看到评论区,选择直接确实,直接调爬取后端api好了
    在这里插入图片描述
    在这里插入图片描述
  2. 复制粘贴完整的curl指令,
    在这里插入图片描述
  3. 喂给kimi chat(不登录网站没有cookie的话,请求访问就是空。)
    在这里插入图片描述
  4. 进一步的需求在这里插入图片描述
  5. 出现报错,给他说一下
    在这里插入图片描述
  6. 爬取效果
    在这里插入图片描述

任务2:补充项目详情

内容展示

在这里插入图片描述

过程

那这个和上面,过程大同(爬取请求)小异(从之前的csv文件中读取 项目ID,然后请求)

  1. 粘贴curl请求在这里插入图片描述
  2. 突然想到我这样的请求是不是要加个间隔,要不 算什么恶意访问。
import timetime.sleep(0.5)  # 休眠500毫秒
  1. 效果如下

在这里插入图片描述

http://www.lryc.cn/news/345432.html

相关文章:

  • UnsupportedClassVersionError异常如何解决?
  • LeetCode热题100|动态规划Part.1|70.爬楼梯、118.杨辉三角、198.打家劫舍
  • python 根据网址和关键词批量下载影像
  • 爬虫-无限debug场景 解决方式
  • [链表专题]力扣206, 203, 19
  • 秋招后端开发面试题 - MySQL基础
  • 力扣每日一题113:路径总和||
  • Thinkphp5 中常见的session 操作方法
  • inBuilder 低代码平台新特性推荐 - 第十八期
  • 部署xwiki服务需要配置 hibernate.cfg.xml如何配置?
  • 1376:信使(msner)
  • Hadoop3:HDFS的架构组成
  • P2910 [USACO08OPEN] Clear And Present Danger S
  • ES6 对象方面的新特性
  • GO语言核心30讲 进阶技术 (第一部分)
  • [力扣题解]225. 用队列实现栈
  • Leetcode—2105. 给植物浇水 II【中等】
  • wordpress外贸建站公司歪建站新版网站上线
  • 关于二手车系统学习--登录模块
  • 若依生成代码的步骤
  • 深度学习论文: LightGlue: Local Feature Matching at Light Speed
  • 全面解析C++11与C++20线程(含内容)
  • 【八股】消息中间件
  • 【17-Ⅰ】Head First Java 学习笔记
  • weblogic 反序列化 [CVE-2017-10271]
  • CoPilot 产品体验:提升 OpenNJet 的控制管理和服务提供能力
  • Leetcode 第396场周赛 问题和解法
  • OC foudation框架(上)学习
  • 【机器学习300问】83、深度学习模型在进行学习时梯度下降算法会面临哪些局部最优问题?
  • 基于springboot的校园管理系统源码数据库