当前位置: 首页 > news >正文

从当当网批量获取图书信息

爬取当当网图书数据并保存到本地,使用request、lxml的etree模块、pandas保存数据为excel到本地。

爬取网页的url为:

http://search.dangdang.com/?key={}&act=input&page_index={}

其中key为搜索关键字,page_index为页码。

爬取的数据包括:爬取的数据包括:书名、作者、图书简介、出版社、出版日期、价格、评论数量。

  

代码如下:

import random
import requests
from lxml import etree
import pandas as pd
import timedata = []
data.append(['书名', '作者', '图书简介', '出版社', '出版日期', '价格', '评论数量'])
def get_book_info(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}response = requests.get(url, headers=headers)response.encoding = 'gbk'if response.status_code == 200:selector = etree.HTML(response.text)        book_list = selector.xpath('//*[@id="component_59"]/li')for book in book_list:# 书名          book_name = ''.join(book.xpath('.//p[1]/a/@title'))# 作者book_author = ''.join(book.xpath('.//p[5]/span[1]/a/@title'))# 图书简介book_intro = ''.join(book.xpath('.//p[2]/text()'))# 出版社book_publisher = ''.join(book.xpath('.//p[5]/span[3]/a/@title'))        # 出版日期    book_date = ''.join(book.xpath('.//p[5]/span[2]/text()'))# 价格book_price = ''.join(book.xpath('.//p[3]/span[1]/text()'))# 评论数量book_comments = ''.join(book.xpath('.//p[4]/a/text()'))# 随机等待时间,防止被封IPrdn = random.randint(1, 5)         print(f'等待时间:{rdn}')time.sleep(rdn)data.append([book_name, book_author, book_intro, book_publisher, book_date, book_price, book_comments])if __name__ == '__main__':    keyword = input('请输入搜索关键字:')page_index = 1while True:url = f'http://search.dangdang.com/?key={keyword}&act=input&page_index={page_index}'print(f'正在爬取第{page_index}页数据...')get_book_info(url)page_index += 1if page_index > 1:breakdf = pd.DataFrame(data[1:], columns=data[0])# 将DataFrame保存为Excel文件df.to_excel(f'{keyword}.xlsx', index=False)

http://www.lryc.cn/news/362881.html

相关文章:

  • python爬虫之JS逆向——网页数据解析
  • VL53L4CX TOF开发(2)----修改测距范围及测量频率
  • C++之noexcept
  • Kafka之Broker原理
  • RabbitMQ docker安装及使用
  • 篇3:Mapbox Style Specification
  • C#WPF数字大屏项目实战11--质量控制
  • 第九十七节 Java面向对象设计 - Java Object.Finalize方法
  • 【scikit-learn009】异常检测系列:单类支持向量机(OC-SVM)实战总结(看这篇就够了,已更新)
  • 网络管理与运维
  • 数据库查询字段在哪个数据表中
  • 第 400 场 LeetCode 周赛题解
  • 数据结构与算法之Floyd弗洛伊德算法求最短路径
  • Ubuntu系统设置Redis与MySQL登录密码
  • 数据库连接池的概念和原理
  • 国内常用的编程博客网址:技术资源与学习平台
  • 怎么给三极管基极或者MOS管栅极接下拉电阻
  • Java Web学习笔记5——基础标签和样式
  • 01_深度学习基础知识
  • 60、最大公约数
  • 设计模式在芯片验证中的应用——迭代器
  • imx6ull - 制作烧录SD卡
  • 使用chatgpt api快速分析pdf
  • Vue:状态管理pinia
  • 【Android Studio】导入import android.support.v7.app.AppcompatActivity;时报错
  • 汽车区域控制器技术分析
  • myEclipse新手使用教程
  • 【WPF编程宝典】第6讲:资源
  • 容器化部署Pig微服务快速开发框架
  • Windows编程:图标资源、光标资源、字符串资源、加速键资源、WM_PAINT消息、绘图