当前位置: 首页 > news >正文

关于大数据

在大数据背景下存在的问题:

        非结构化、半结构化数据:NoSQL数据库只负责存储;程序处理时涉及到数据移动,速度慢
是否存在一套整体解决方案?

        可以存储并处理海量结构化、半结构化、非结构化数据
        处理海量数据的速度很快,且扩展性强

大数据:数据达到一定规模以后,对数据进行存储和计算的技术

大数据的特征包括:

  • 数据规模巨大(Volume)
  • 生成和处理速度极快(Velocity)
  • 数据类型多样(Variety)
  • 价值巨大但密度较低(Value)

场景

离线和实时区分:数据是否有界。
    离线:数据产生以后存起来(如10G),以后不会增加或减少,以后的计算都是这么大。(断网也可以断网)。--------适合批处理
    实时:数据产生后直接计算。------适合流处理

生态

传统单机架构:比如在OS上安装了MySQL,OS为mysql提供了文件系统、通用计算(比如sql转成os的指令来执行)、资源管理。
大数据:有没有操作系统底层就是管理多个机器的?没有。所以我们要在软件层面来实现把OS构建成分布式的,然后这些分布式分别装不同组件。Hadoop

大数据开发的工作内容:
如果做数仓,就用sqoop把数据抽到HDFS,用spark或者mapreduce进行数据清洗,计算的结果放在Hive里或者sparksql。中间这些任务调度用Oozie或Azkaban。
对于流处理来说,用flume或lagstach去监控非结构化或半结构化的数据,用OGG/CDC监控数据库日志(结构化),把这些数据实时抽取到kafak,然后由流引擎,比如sparkes生态圈的spark streaming,或flink进行处理,数据处理之后再把结果存到HBase里进行保存或者es。

Hadoop分布式文件系统,有三个核心子项目(HDFS、Yarn、Mapreduce),围绕着这三个子项目发展出来的生态就是Hadoop生态圈。

HDFS

http://www.lryc.cn/news/532226.html

相关文章:

  • 9-收纳的知识
  • 堆的实现——堆的应用(堆排序)
  • 机器学习6-全连接神经网络2
  • 基于 SpringBoot 的电影购票系统
  • C++SLT(三)——list
  • C++ Primer 算术运算符
  • 数据结构-堆和PriorityQueue
  • 【玩转 Postman 接口测试与开发2_017】第13章:在 Postman 中实现契约测试(Contract Testing)与 API 接口验证(下)
  • R语言 | 使用 ComplexHeatmap 绘制热图,分区并给对角线分区加黑边框
  • React图标库: 使用React Icons实现定制化图标效果
  • Python sider-ai-api库 — 访问Claude、llama、ChatGPT、gemini、o1等大模型API
  • DeepSeek、哪吒和数据库:厚积薄发的力量
  • DDD - 微服务架构模型_领域驱动设计(DDD)分层架构 vs 整洁架构(洋葱架构) vs 六边形架构(端口-适配器架构)
  • 第 1 天:UE5 C++ 开发环境搭建,全流程指南
  • 【华为OD-E卷 - 109 磁盘容量排序 100分(python、java、c++、js、c)】
  • 【大数据技术】编写Python代码实现词频统计(python+hadoop+mapreduce+yarn)
  • 5-Scene层级关系
  • JVM执行流程与架构(对应不同版本JDK)
  • 本地部署 DeepSeek-R1:简单易上手,AI 随时可用!
  • 请求响应(接上篇)
  • 数组排序算法
  • 防火墙的安全策略
  • 2025Java面试题超详细整理《微服务篇》
  • 中位数定理:小试牛刀> _ <2025牛客寒假1
  • (2025,LLM,下一 token 预测,扩散微调,L2D,推理增强,可扩展计算)从大语言模型到扩散微调
  • 如何开发一个大语言模型,开发流程及需要的专业知识
  • 【数据采集】基于Selenium采集豆瓣电影Top250的详细数据
  • neo4j-在Linux中安装neo4j
  • 多无人机--强化学习
  • UE制作2d游戏