当前位置：首页 > news >正文

初探大数据流式处理

news 2025/7/14 22:15:43

在这里插入图片描述

文章目录

- - 初探大数据流式处理
  - - 批式处理系统特点
    - 流式处理系统特点
    - 大批次计算
    - 微批次计算
    - 适用场景
  - 流式计算的应用场景
  - 流式大数据的特征
  - 流式计算的关键技术
  - 流式处理框架的特征
  - 三大流式数据处理框架

初探大数据流式处理

大数据处理系统主要分为批式处理和流式处理两类。批式处理将大量数据分成批次进行处理，适用于对实时性要求不高的场景，如离线数据分析和大规模数据计算，常见的框架包括MapReduce、Hive和Spark。流式处理则是一种实时数据处理方式，能够逐条或按小批次处理数据，适用于需要低延迟和高实时性的场景，如实时监控和即时分析，常见的框架包括Spark Streaming、Flink和Storm。

批式处理系统特点

数据批量处理：将某时间段的数据汇聚成一个批次，进行业务逻辑处理后加载至存储系统。
查询延迟性：虽然可对完整大数据集实现高效查询，但无法查询到最新的实时数据，存在一定的数据延迟。
处理时间长：处理数据一般计算时间较长，可能几分钟、几小时甚至几天。

流式处理系统特点

实时处理与低延迟：流式大数据处理系统能够实时处理逐条或多条数据，并将数据加载到高性能内存中进行计算，同时支持数据的持久化，确保低延迟的数据处理。
数据到达的不确定性：流式计算无法预先确定数据的到达时间和顺序，使得数据处理过程具有不确定性。
网络延迟的影响：在实时流计算中，由于网络延迟，来自不同节点的数据可能不会按照发送顺序被处理，可能导致数据处理顺序的混乱。

大批次计算

大批次计算时间：通常以小时、天、周、月、年作为时间间隔，因此也被称为离线计算。
典型的计算框架：包括MapReduce、Hive、SparkCore、SparkSQL等。

微批次计算

微批次计算时间：处理数据的单位通常是毫秒、秒、分钟，因此也被称为实时计算。
典型的计算框架：包括SparkStreaming、Flink、Storm等。

适用场景

批量计算适用场景：适合对实时性要求不高，但对数据的准确性和全面性更为重要的应用场景。通常采用先存储后计算的方式。
流式计算适用场景：适合无需先存储、可以直接进行数据计算，且对实时性要求严格，但对数据精确度要求稍微宽松的应用场景。
流批一体计算适用场景：流量计算和批量计算具有明显的优劣互补特征。在多种应用场合下，可以通过结合流式计算的实时性优势和批量计算的计算精度优势，满足不同阶段的数据计算要求。

流式计算的应用场景

计算结果精度问题：大数据流式计算主要用于对动态产生的数据进行实时计算并及时反馈结果，但通常不要求结果绝对精确。
计算时机问题：在数据的有效时间内获取其价值是大数据流式计算系统的首要设计目标。当数据到来后，系统会立即对其进行计算或对一小段时间间隔的数据进行计算，而不会等待后续全部数据到来再进行计算。