如何使用python网络爬虫批量获取公共资源数据
在21世纪数据革命的浪潮下,大数据承载的价值不断提高,大数据的应用范围不断地扩大,已经渗透到自然科学和社会科学的多个领域,为学科发展和科学研究提供了巨大的发展机遇。时至今日,大量的公共资源和公开数据集以各种形式分享在互联网上,如何快速批量地获取海量公共资源数据决定了科研的效率。Python网络爬虫是快速批量获取网络数据的重要手段,它按照发送请求、获得页面、解析页面、下载内容、储存内容等流程,根据网页的链接地址自动获取网页内容,其特点是快速批量、自动化运行。由于网页内容、结果和反爬虫机制的不断更新,拥有一段爬虫程序并不是一劳永逸,而需要针对不同网页及时更新,而掌握爬虫的关键技术是在各种复杂网页中成功爬取数据和甚至成为爬虫工程师的基础。本课程以公共公开数据资源网站为例,在合法合规的情况下讲解如何利用Python网络爬虫批量获取大量数据,零基础掌握学习爬虫的正确路径,以生动的案例展示经济、生态、气象、农业、商业等网络大数据的获取。
专题一、Python软件的安装及入门
1 Python软件安装及入门
1) Anaconda软件安装
2) Python库的安装与基本语法
3) Python的字符操作与正则表达式
4) Python的数据清洗与存储
5) HTML和XML基础
专题二、Python爬虫基础
2 Python爬虫基础及关键技术
1) 爬虫的工作流程
2) 发送请求及获得页面
Requests库的使用
获取代理、设置代理ip池及反爬虫
3) 解析页面技术:
正则表达式使用
BeautifulSoup库的使用
CSS选择器使用
Xpath、lxml、entree语法讲解
专题三、使用爬虫爬取气象大数据
3 如何爬取CMIP6气象数据和气象网站数据
1) 使用五种不同解析技术爬取气象大数据
专题四、使用爬虫爬取农业大数据
4 如何在农业大数据平台上爬取数据
1) Selenium库的介绍
2) 使用Selenium爬取种业大数据
专题五、使用爬虫爬取文献数据
5 如何在文献数据库批量爬取数据
专题六、Python 爬取异步加载网页及数据集网站
6 如何在AJAX异步加载网页中下载音视频数据
1) Ajax请求和JS渲染
2) json解析、XHR讲解
3) 使用json解析爬取查询类、音视频类数据类网站