当前位置: 首页 > article >正文

day09-新热文章-实时计算

1. 实时计算与定时计算的区别
  • 定时计算:基于固定时间间隔(如每天/小时)处理全量数据,适用于对实时性要求不高的场景。
  • 实时计算:持续处理无界数据流,结果实时输出,适用于高实时性场景(如用户行为分析、实时推荐)。
2. Kafka Stream 核心概念
  • 流式处理模型:通过 KStream 抽象数据流,支持增量计算。
  • 关键组件
    • Source Processor:从 Kafka 主题消费数据。
    • Sink Processor:将处理结果发送到 Kafka 主题。
    • 窗口操作(如 TimeWindows):按时间范围聚合数据。
    • 状态存储:支持容错的状态操作(如 Materialized.as)。
3. 热点文章实时计算流程
  1. 用户行为发送消息
    • 用户行为(阅读、点赞等)触发消息发送到 Kafka 主题 hot.article.score.topic
    • 消息格式为 UpdateArticleMess,包含文章 ID、行为类型和增量值。
  2. Kafka Stream 聚合处理
    • 按文章 ID 分组,使用 10 秒时间窗口聚合行为数据。
    • 聚合结果转换为 ArticleVisitStreamMess,包含文章 ID 及各行为的总增量。
  3. 更新文章分值
    • 根据聚合结果重新计算文章热度分值,更新数据库。
    • 替换 Redis 缓存中的热点文章数据,确保前端实时展示最新热点。

关键代码解释

1. Kafka Stream 单词计数案例
stream.flatMapValues(value -> Arrays.asList(value.split(" "))).groupBy((key, value) -> value).windowedBy(TimeWindows.of(Duration.ofSeconds(10))).count().toStream().to("itcast-topic-out");
  • flatMapValues:将输入字符串按空格拆分为单词流。
  • groupBy:按单词分组,为后续聚合做准备。
  • windowedBy:定义 10 秒的时间窗口,统计窗口内的数据。
  • count():统计每个单词在窗口内的出现次数。
  • to("itcast-topic-out"):将结果发送到指定 Kafka 主题。
2. Spring Boot 集成 Kafka Stream
@Bean
public KStream<String, String> kStream(StreamsBuilder streamsBuilder) {KStream<String, String> stream = streamsBuilder.stream("itcast-topic-input");// 处理逻辑return stream;
}
  • @EnableKafkaStreams:启用 Kafka Stream 功能。
  • StreamsBuilder:构建流处理拓扑,通过 @Bean 定义 KStream 对象。
3. 热点文章分值更新
public void updateScore(ArticleVisitStreamMess mess) {ApArticle apArticle = updateArticle(mess);  // 更新数据库行为数据Integer score = computeScore(apArticle);    // 计算新分值replaceDataToRedis(apArticle, score, ...);  // 更新缓存
}
  • updateArticle:根据聚合结果更新文章的阅读、点赞等字段。
  • computeScore:按权重计算文章热度分值(如点赞权重更高)。
  • replaceDataToRedis:替换 Redis 中频道或推荐列表的热点文章数据,保持前 30 条高分值文章。
4. Kafka Stream 聚合消息
.aggregate(() -> "COLLECTION:0,COMMENT:0,LIKES:0,VIEWS:0",  // 初始值(key, value, aggValue) -> {// 累加各行为值return formatStr;  // 返回聚合后的字符串},Materialized.as("hot-article-stream-count-001")  // 状态存储名称
)
  • aggregate:定义初始值和聚合逻辑,累加窗口内各行为(收藏、评论等)的增量。
  • Materialized.as:指定状态存储名称,支持容错和高效查询。

技术亮点

  1. 低延迟处理:Kafka Stream 提供毫秒级延迟,适合实时场景。
  2. 窗口化聚合:通过时间窗口控制数据范围,平衡实时性与计算效率。
  3. 状态管理:利用 Materialized 实现容错状态存储,确保数据一致性。
  4. 无缝集成:Spring Boot 简化 Kafka Stream 配置,提升开发效率。
http://www.lryc.cn/news/2383437.html

相关文章:

  • Elasticsearch面试题带答案
  • OpenCV CUDA模块图像过滤------用于创建一个最大值盒式滤波器(Max Box Filter)函数createBoxMaxFilter()
  • Redis数据库-消息队列
  • 【Docker】Docker -p 将容器内部的端口映射到宿主机的端口
  • 破解充电安全难题:智能终端的多重防护体系构建
  • apptrace 三大策略,助力电商 App 在 618 突围
  • SpringAI的使用
  • Core Web Vitals 全链路优化:从浏览器引擎到网络协议深度调优
  • SuperVINS:应对挑战性成像条件的实时视觉-惯性SLAM框架【全流程配置与测试!!!】【2025最新版!!!!】
  • Node-Red通过开疆智能Profinet转ModbusTCP采集西门子PLC数据配置案例
  • vscode连接WSL卡住
  • Redis面试题全面解析:从基础到底层实现
  • 【性能测试】jvm监控
  • Uniapp开发鸿蒙应用时如何运行和调试项目
  • QT+RSVisa控制LXI仪器
  • PHP8.0版本导出excel失败
  • GO语言学习(五)
  • js不同浏览器标签页、窗口或 iframe 之间可以相互通信
  • springboot3+vue3融合项目实战-大事件文章管理系统-文章分类也表查询(条件分页)
  • Canvas进阶篇:鼠标交互动画
  • Mac下载bilibili视频
  • Unity editor文件数UI(支持勾选框)
  • 【Node.js】Web开发框架
  • 使用Vite创建一个动态网页的前端项目
  • 系统架构设计师案例分析题——web篇
  • MySQL--day5--多表查询
  • 【Redis】AOF日志的三种写回机制
  • leetcode hot100刷题日记——7.最大子数组和
  • 基于Spring Boot和Vue的在线考试系统架构设计与实现(源码+论文+部署讲解等)
  • MySQL Workbench 工具导出与导入数据库:实用指南