当前位置: 首页 > news >正文

爬虫进阶-反爬破解9(下游业务如何使用爬取到的数据+数据和文件的存储方式)

一、下游业务如何使用爬取到的数据

(一)常用数据存储方案

1.百万级别数据:单机数据库,搭建和使用方便快捷,成本低

2.千万级别数据:负载均衡的多台数据库,安全和稳定

3.海量数据:大数据框架,分布式部署,承载量巨大

(二)数据库及框架

1.百万级别数据:Mysql、PostgreSQL、Mongo

2.千万级别数据:主从同步数据库,性能调优

3.大数据框架:Hbase、Elasticsearch、Hive

4.文件存储:OSS、COS、Kodo、fastDFS

(三)下游业务提取数据方式

1.数据库客户端界面筛选数据并导出

2.数据人员写代码查询数据并分析

3.大数据分析工具,例如Bi、Hadoop、spark

(四)总结

1.通常数据的存储位置,一般是已经准备指定了具体某个框架

2.爬虫开始工作前,分布式数据库的架设就要完成,并开发接口

3.数据分析人员,也需要学习编程,如Python,R,SQL

二、数据和文件存储方案:Hadoop/Hbase/Hive/Spark/OSS/FastDFS

(一)认识大数据框架

Hadoop:大数据框架,安全稳定,适合存储低频计算的大文件

Spark:基于内存的计算框架,实时计算数据

Hive:只支持SQL查询语法,处理结构化的数据

Hbase:nosql,非关系型数据库,类似mongodb

(二)认识分布式文件系统

对象存储【云产品】:方便易用容量大,但是贵

FastDFS:开源的分布式文件系统,自行搭建

HDFS:Hadoop内置的分布式文件系统,适合存储大文件

(三)低频大数据存储类型

1.框架选择:Hadoop+Hive

2.SQL查询语句,学习成本低

3.HDFS和MapReduce,对大数据有优势

(四)实时大数据计算类型

1.框架选择:Hadoop+Spark

2.Hadoop稳定,提供大数据的基础

3.Spark是运行在内存上的计算,运行速度快

(五)结构化大数据存储类型

1.框架选择:Hadoop+Hbase

2.数据是按列存储的,查询时只访问所涉及的列,速度快

3.大幅降低系统I/O,数据类型一致,可以高效压缩存储

(六)大数据文件系统和分布式文件系统

Hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用了分块(切分)存储的方式;

FastDFS主要用于大中网站,为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持的比较好,不分割文件。

(七)总结

(1)大数据范围很广,通常是指Hadoop生态圈。

(2)Hadoop不是单一框架,而是有非常多组件的大数据完整方案。

(3)根据项目的需求,选择特定组件接入到Hadoop中

http://www.lryc.cn/news/205961.html

相关文章:

  • Docker常用应用部署
  • 【数据分享】2014-2022年我国淘宝村点位数据(Excel格式/Shp格式)
  • Ubuntu 安装 docker-compose
  • vue2、vue3中路由守卫变化
  • Leetcode—547.省份数量【中等】
  • Nginx 防盗链
  • 26. 通过 cilium pwru了解网络包的来龙去脉
  • 刷题笔记day01-数组
  • C#调用C++ 的DLL传送和接收中文字符串
  • 【MySQL】数据库常见错误及解决
  • spring常见问题汇总
  • java8 Lambda表达式以及Stream 流
  • 基于Java的音乐网站管理系统设计与实现(源码+lw+部署文档+讲解等)
  • 【蓝桥】小蓝的疑问
  • 漏洞复现-海康威视综合安防管理平台信息泄露【附Poc】
  • 【完美世界】被骂国漫之耻,石昊人设战力全崩,现在真成恋爱世界了
  • 34二叉树-BFS和DFS求树的深度
  • Android Glide判断图像资源是否缓存onlyRetrieveFromCache,使用缓存数据,Kotlin
  • 设计模式之创建型模式
  • 使用jdbc技术连接数据库
  • OpenLayers入门,快速搭建vue+OpenLayers地图脚手架项目
  • 完成比写得好更重要,先完成初稿再说
  • Spring boot 处理复杂json接收,同种类型、不同场景处理
  • 排列置换环上构造:1025T3
  • Stable diffusion的一些参数意义及常规设置
  • 成员变量、静态成员变量、局部变量、常量的内存区域
  • 网络协议--IGMP:Internet组管理协议
  • 网络安全https
  • xcode Simulator 手动安装
  • Unity中国、Cocos为OpenHarmony游戏生态插上腾飞的翅膀