数据库大数据
数据库
PyMongo模块的使用-MongoDB的Python接口
MapReduce将数据分解成子集,在不同机器上分开处理,并把结果集合起来,从而处理大数据的泛化框架。
Hadoop是MapReduce的一种实现,类似于C++是面向对象编程的实现一样。
NoSQL-Not Only SQL,技能能更新颖,更高效地访问(如MapReduce)数据的数据库或数据库管理系统
Spark 由一个驱动程序构成,它运行用户的 main 函数并在聚类上执行多个并行操作。Spark 最吸引人的地方在于它提供的弹性分布数据集(RDD),那是一个按照聚类的节点进行分区的元素的集合,它可以在并行计算中使用。RDDs 可以从一个 Hadoop 文件系统中的文件(或者其他的 Hadoop 支持的文件系统的文件)来创建,或者是驱动程序中其他的已经存在的标量数据集合,把它进行变换。用户也许想要 Spark 在内存中永久保存 RDD,来通过并行操作有效地对 RDD 进行复用。最终,RDDs 无法从节点中自动复原。
- 离线数据处理: hadoop / hbase / cassandra
- 在线数据处理:storm / s4
- 跨语言通信:thrift / proobuf / avro, elephant bird
- 一致性:zoo keeper / chubby
- 数据查看:hive / pig
- 数据传输:scribe
大数据
按照马云的说法,