当前位置: 首页 > news >正文

18 统计网站每日的访问次数

1.将竞赛的数据上传HDFS,查看数据的格式

  

通过浏览器访问hdfs,查看该文档前面的部分数据

每条数据的字段值之间使用逗号隔开的 ,最终时间是第五个自动,获取第五个字段值的中的年月日。

  2.通过Idea创建项目mr-raceData ,基础的配置

修改pom.xml,添加依赖

<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.4</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.30</version></dependency>
</dependencies>

在resources目录下,新建log4j.properties

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=D:\\visitcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

编写代码后,需要将其打成Jar包,需要修改pom.xml 

<build><plugins><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.1</version><configuration><source>1.8</source><target>1.8</target></configuration></plugin><plugin><artifactId>maven-assembly-plugin</artifactId><configuration><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><executions><execution><id>make-assembly</id><phase>package</phase></execution></executions></plugin></plugins>
</build>

打包使用的插件:

指定打包的方式为jar 

编写源代码:

Mapper模块:

Reducer模块:

Driver模块:

最后使用maven打包为Jar,按以下四步参考,clean-->validate-->compile-->package

在当前项目下的target目录下找到打包后的jar文件

将jar文件拷贝到桌面,并上传的master的当前用户目录下

将竞赛日志数据取部分上传到hdfs上

[yt@master ~]$ hdfs dfs -put access_log.txt  /bigdata/
 

执行jar文件,实现访问每条访问次数的统计

[yt@master ~]$ hadoop jar visitcount-1.0-SNAPSHOT.jar  com.maidu.visitcount.DailyAccessCount  /bigdata/access_log.txt  /output11/
 

执行完成后,可以查看输出文件,看到最终的统计结果。

查看统计的结果:

统计成功。

http://www.lryc.cn/news/340942.html

相关文章:

  • Java PDF文件流传输过程中速度很慢,如何解决?
  • MCU最小系统晶振模块设计
  • ELK及ELFK排错
  • 『Django』创建app(应用程序)
  • Docker安装(一)
  • 由于bug发现的现象
  • ES源码四:网络通信层流程
  • 贝锐蒲公英自研异地组网新技术:远程视频监控,流畅度、清晰度大幅提升
  • C# aspose word实现模板方式打印及打印速度慢解决方法
  • java纯文字游戏
  • mac IDEA激活 亲测有效
  • 视频怎么去水印,轻松去视频水印的方法
  • vue3+element+AntDesign(自动导入)+pina+vite+js+pnpm搭建项目框架
  • Android Studio XML 预览View 底部移动到右边
  • 计算机网络——实现smtp和pop3邮件客户端
  • 【Spring】面试题汇总
  • thinkphp6入门(23)-- 如何导入excel
  • 【数据结构3-栈和队列】
  • STL--list双向链表
  • ElasticSearch入门篇
  • MAXHUB会议解决方案持续进化,以“高效”为核心推动行业发展
  • CentOS 7安装Redis
  • Kubernetes (K8s) 部署前后端分离项目
  • MLT媒体程序框架01:概述
  • 9【原型模式】复制一个已存在的对象来创建新的对象
  • 谷粒商城实战(013 业务-认证服务-短信验证)
  • Unity中支持泰语--没有版权限制
  • C语言传统垃圾收集器的缺陷以及我的思路
  • 数据交换格式
  • 电力系统卫星授时信号安全隔离装置防护方案