初探Spark-使用大数据分析2000W行数据
初学spark和scala,做些小分析练习,学习资料可以看看这里
如何搭建scala环境和spark环境我就不说了,网上一堆堆的。
开发环境
scala version:2.11.2
spark version:spark-2.0.0-bin-hadoop2.4
Eclipse:4.4.2 Juno Service Release 2
本次实例是单机运行的,步骤如下:
1. 模拟2000W人口数据
2. 编写程序分析男女比例分布
3. 编写程序分析人口星座分布
一、 模拟数据
2000W行数据是自己模拟出来的,模拟随机生成人口资料。
package com.soecode.SparkDemoimport java.io.PrintWriter/*** 模拟一个城市人口*/
object CreateTestFile {def main(args: Array[String]) {val start = System.currentTimeMillis();val out = new PrintWriter("d://renkou.txt")for(i <- 1 to 20000000){out.println(i+","+getName+","+getBirth+","+getSex)}out.close()val end = System.currentTimeMillis();print("任务结束,耗时:"+(end-start)+"ms")}//随机产生名de