当前位置: 首页 > news >正文

零代码编程:用ChatGPT批量采集bookroo网页上的英文书目列表

bookroo网页上有很多不错的英文图书书目。比如这个关于儿童花样滑冰的书单:

https://bookroo.com/explore/books/topics/ice-skating

怎么批量下载下来呢?

这个网页是动态网页,要爬取下来比较麻烦,可以先查看源代码,然后把源代码保存到本地e盘:DOCTYPE html.htm

打开这个源代码文件:

仔细看,书籍信息在json对象里面:

问ChatGPT如何提取这些书籍名称:

如何从以上网页源代码中提取出title的内容,比如提取出"title":"Mice Skating"、title":"Flora and the Penguin"中的:Mice Skating、Flora and the Penguin

ChatGPT的回复:

你的问题描述中的内容看起来像是一段JSON格式的数据,而不是HTML源代码。这是一个JSON对象,其中包含一个"books"的列表,每个列表项又是一个包含各种属性(包括"title")的字典。

为了提取"title"的内容,你可以首先将这个JSON字符串转换为Python的数据结构,然后遍历"books"列表,提取每个书籍的"title"。以下是一个例子:

import json

# 这是你的JSON字符串。我已经将其稍微清理过了。

json_str = '''

{

"props": {

"pageProps": {

"initialData": {

"pages": [

{

"books": [

{

"title": "Flora and the Penguin",

...

},

{

"title": "Mice Skating",

...

},

...

]

}

]

}

}

}

}

'''

# 将JSON字符串转为Python数据结构

data = json.loads(json_str)

# 遍历"books"列表

for page in data['props']['pageProps']['initialData']['pages']:

for book in page['books']:

# 提取并打印"title"

print(book['title'])

注意:我在JSON字符串中使用了省略号("...")来表示你的原始数据中还有更多的内容。在实际使用中,你应该用你的完整的JSON字符串替换json_str的值。

将所有的JSON字符串复制到json_str = ''' ''' 里面,运行程序,成功获取到页面的所有图书名称:

http://www.lryc.cn/news/193029.html

相关文章:

  • 7.定时器
  • 计算机网络 | 网络层
  • 21GA-ELM,遗传算法优化ELM预测,并和优化前后以及真实数值进行对比,确定结果,基于MATLAB平台,程序已经调通,可以直接运行,需要直接拍下。
  • 287_C++_TaskQueue管理任务队列和定时器(头文件.h)
  • Hadoop+Zookeeper+HA错题总结(一)
  • React高级特性之context
  • 【OS】操作系统课程笔记 第五章 并发性——互斥、同步和通信
  • RabbitMQ概述原理
  • 8.Covector Transformation Rules
  • RustDay04------Exercise[21-30]
  • OpenAI科学家谈GPT-4的潜力与挑战
  • Java电子病历编辑器项目源码 采用B/S(Browser/Server)架构
  • 使用 AWS DataSync 进行跨区域 AWS EFS 数据传输
  • 设计模式~解释器模式(Interpreter)-19
  • 对象混入的实现方式
  • Mac 远程 Ubuntu
  • 黑豹程序员-h5前端录音、播放
  • Leetcode622.设计循环队列
  • 二十二、【形状工具组】
  • 设计模式~迭代器模式(Iterator)-20
  • 亳州市的自然风光与旅游资源:欣赏安徽省中部的壮丽景色
  • windows安装nvm以及解决yarn问题
  • 【TA 挖坑04】薄膜干涉 镭射材质 matcap
  • OpenCV13-图像噪声:椒盐噪声和高斯噪声
  • 天堂2服务器基本设置
  • 如何解决网站被攻击的问题
  • python爬虫入门详细教程-采集云南招聘网数据保存为csv文件
  • 1.13.C++项目:仿muduo库实现并发服务器之TcpServer模块的设计
  • Spring(17) AopContext.currentProxy() 类内方法调用切入
  • 自己的类支持基于范围的for循环 (深入探索)