当前位置: 首页 > news >正文

日常学习记录随笔-大数据之日志(hadoop)收集实战

在这里插入图片描述

数据收集(nginx)--->数据分析---> 数据清洗--->数据聚合计算---数据展示
可能涉及到zabix 做任务调度
我们的项目 电商日志分析
比如说我们现在有一个系统,我们的数仓建立也要有一个主题
我这个项目是什么我要干什么定义方向
对用户进行分析,用户信息 
要懂整个数据的流程1. 前端埋点数据
2. java业务端数据 (比如说 支付成功或者支付失败我要发到nginx 服务上)
3. java (oltp数据)
4. nginx 负载均衡 反向代理,基于nginx的access.log文件可以做日志收集  
进而统计网站的pv埋点日志一条日志  229字节  一条埋点日志229字节10000w的点击量*229字节 (存储hdfs)

在这里插入图片描述

nginx 专门做日志收集 
flume专门做日志采集
我们的日志分结构化和非结构化日志

在这里插入图片描述

DATAX/sqoop可以做数据迁移  数仓分离线数仓 以及实时数仓

在这里插入图片描述

前端基于事件触发的埋点 比如说点击事件 
java支付成功,支付失败的事件,可能Java业务端 付款成功会发一条请求  发送到nginx 服务上

在这里插入图片描述

我们的日志已经拿到了 包括支付成功,支付失败或者pv 点击事件
我们会吧日志统一发送到------>nginx 负责采集
nginx 的access.log 帮我们做统计日志的情况

在这里插入图片描述
在这里插入图片描述

然后我们可以基于awk sed grep 来进行nginx日志的处理
nginx的access.log   我们的pv就出来了  我们nginx就充当了  日志收集着的角色然后我们可以启动一个springboot项目 通过maven打包  java-jar 执行
nginx 收集到日志,我们下一步要吧这个nginx日志打到hdfs中
接下来我们要配置flume 吧nginx数据导入到hdfs中 

在这里插入图片描述

flume可以监控log的变化  我们吧数据从nginx 通过flume导入到了hdfs中 接下来我们要做的就是数据清洗

如何吧数据进行拆解 拆解成我们想要的样子   我们要基于我们的业务 来分析 用什么软件 用了多少台服务器 集群配置  集群规划(什么版本)

在这里插入图片描述

数据采集

在这里插入图片描述

etl:做数据清洗,去除脏数据.如何吧数据进行拆解 拆解我们想要的样子

在这里插入图片描述

在这里插入代码片

在这里插入图片描述

做数据采集的思路

在这里插入图片描述
在这里插入图片描述

我到时候可以分析出  一个用户在一个会话中访问了多少网站
吧数据进行拆分  我们etl会拿出数据进行分析 比如说ip,他们就会知道在那个地方访问的我
用的什么浏览器

在这里插入图片描述

浏览器信息
基于一个会话 我就可以知道他的页面链路了
基于mr进行解析日志    之后映射成表
我们的数据就洗出来了
然后我们建维度 就给各个维度表里面导数据了
当我们访问服务器的时候 就会有埋点日志
java/js========>nginx 埋点日志数据----->hdfs -->(基于mr去进行拆解以及数据清洗)-->导入hive
mr的作用帮我们解析日志 
首先数据我们已经做了一些简单的清洗,错误的数据已经是没有了,不符合规则的数据
我们肯定对数据进行一些计算
我们要基于我们的业务数据进行建模(建立各种维度表)  
先确定我们要分析的维度 (需求) ----------->基于维度建表
我们会设计很多的维度表  来满足我们的需求

在这里插入图片描述

http://www.lryc.cn/news/191193.html

相关文章:

  • 【云计算】相关解决方案介绍
  • 攻防世界题目练习——Crypto密码新手+引导模式(二)(持续更新)
  • LeetCode【1】两数之和
  • 【运维笔记】VMWare 另一个程序已锁定文件的一部分,进程无法访问
  • [Springboot]统一响应和异常处理配置
  • Redis第四五六章 持久化事务主从复制
  • 【强烈推荐】免费的PDF工具,包括PDF拆分/分割、转WORD等功能的免费在线软件工具,救了大命,找了半天什么pdf365、福xipdf、还有哔果pdf全是打着免费名义收费,烦死了
  • SpringMVC源码分析(二)启动过程之RequestMappingHandlerMapping分析
  • KWin、libdrm、DRM从上到下全过程 —— drmModeAddFBxxx(7)
  • 2023 年 Arm A-Profile 架构发展
  • 2023年09月 C/C++(五级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • CentOS系统/root根目录扩容(扩展逻辑卷)
  • 苍穹外卖(三) 员工分页及技术实现细节
  • 二进制部署MySQL8.0
  • 全力以赴,火山引擎边缘云代表团出战亚运会
  • WPF页面向后端传参
  • PyTorch 入门
  • 微信自动批量添加好友的方法
  • [网鼎杯 2018]Comment git泄露 / 恢复 二次注入 .DS_Store bash_history文件查看
  • 生态兼容性进一步提升!白鲸开源 WhaleStudio 与火山引擎ByteHouse完成产品互认
  • iOS 内存管理和优化
  • 常见工具指令【Vim | GIT | ZIP | UNZIP | IDEA】
  • 中国人民大学与加拿大女王大学金融硕士——顺势而为,掌握人生的方向盘
  • Apache Ranger:(二)对Hive集成简单使用
  • 【angular】实现简单的angular国际化(i18n)
  • Redis之主从复制,哨兵模式,集群
  • 掌动智能浅析Web自动化测试的重要性
  • JTS: 12 Descriptions 图形覆盖
  • 业务安全五重价值:防攻击、保稳定、助增收、促合规、提升满意度
  • shiro反序列化和log4j