不是很容易,但是推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra。

另外就是SQL On Hadoop之Hive于大数据而言一定要学习的最后,学会Hive的基本命令创建删除表加载数据到表下载Hive表的数据MapReduce的原理还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序。

实际操作 通过运行实际的MapReduce任务,探索Hadoop的各种功能,如数据读取数据处理和数据存储学习高级组件 在熟悉基础组件后,可以进一步学习Hadoop生态系统中的其他组件,如HivePig和HBase持续学习 随着大数据领域的不断。

第一阶段大数据前沿知识及hadoop入门,大数据前言知识的介绍,课程的介绍,Linux和unbuntu系统基础,hadoop的单机和伪分布模式的安装配置第二阶段hadoop部署进阶Hadoop集群模式搭建,hadoop分布式文件系统HDFS深入剖析使用HDFS。