当前位置: 首页 > article >正文

初探Spark-使用大数据分析2000W行数据

初学spark和scala,做些小分析练习,学习资料可以看看这里

如何搭建scala环境和spark环境我就不说了,网上一堆堆的。


开发环境
scala version2.11.2 
spark version:spark-2.0.0-bin-hadoop2.4
Eclipse:4.4.2 Juno Service Release 2

本次实例是单机运行的,步骤如下:
1. 模拟2000W人口数据
2. 编写程序分析男女比例分布
3. 编写程序分析人口星座分布


一、 模拟数据

2000W行数据是自己模拟出来的,模拟随机生成人口资料。

package com.soecode.SparkDemoimport java.io.PrintWriter/*** 模拟一个城市人口*/
object CreateTestFile {def main(args: Array[String]) {val start = System.currentTimeMillis();val out = new PrintWriter("d://renkou.txt")for(i <- 1 to 20000000){out.println(i+","+getName+","+getBirth+","+getSex)}out.close()val end = System.currentTimeMillis();print("任务结束,耗时:"+(end-start)+"ms")}//随机产生名de
http://www.lryc.cn/news/2420896.html

相关文章:

  • 博客屋网址导航自适应主题php源码
  • 驱动python_光驱驱动下载_万能光驱驱动(万能DVD光驱CD光驱驱动) 2018 官方版_极速下载站...
  • MFC框架机制详解
  • 【C语言经典例题100解答】
  • web自动化测试_web自动化测试工具和框架有哪些?
  • 基于深度学习的车牌识别项目的APP部分之图像预处理(一):C语言读取bmp图像信息
  • 知音微服务平台网上订烟_96368手机订烟统一订单下载|96368统一订单平台(湖南烟草统一订单)下载v1.3.6 安卓版_ 2265安卓网...
  • VC++使用DC画出点,线,矩形,椭圆
  • python-flask计算机毕业设计装修公司管理系统(程序+开题+论文)
  • C# DevExpress ChartControl用法总结
  • RichEdit那点儿事(一)
  • DAY1-声速、声压与声强
  • 记录点有意义的事情---csdn数据库被黑(原创)
  • patch 补丁文件制作
  • 修改固态硬盘的物理序列号_买固态怕踩坑?收下这些软件,轻松鉴别好坏
  • 传奇翎风引擎单机架设教程
  • QQ强制视频聊天
  • Moto官方GMS谷歌服务套件For XT800+下载和使用教程
  • 经典SQL语句大全
  • 提升电脑开机速度
  • 推荐开源项目:YUIDoc——JavaScript文档生成引擎
  • socks5原理
  • 课程设计-基于Springboot+Vue的在线考试系统的设计与实现(源码+LW+包运行)
  • Linux入门实验3
  • JAVA转.NET——day03、下
  • Stanford Parser句法分析器
  • svn安装及使用
  • Linux查看当前时间
  • 《隐秘的角落》结局你真的看懂了吗?(细思极恐)
  • 计算机主板一直滴滴响,主板报警声大全_主板一直滴滴滴短响含义详解