1、Hadoop这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的Hadoop里面包括有几个组件,比如HDFSMapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对;在HADOOPhdfsMAPREDUCEyarn大数据处理技术框架,擅长离线数据分析Zookeeper 分布式协调服务基础组件,Hbase 分布式海量数据库,离线分析和在线业务处理Hive sql 数据仓库工具,使用方便,功能丰富,基于MR延迟大,可以;大数据技术人员掌握的专业技能基础阶段LinuxDockerKVMMySQL基础Oracle基础MongoDBredishadoop mapreduce hdfs yarnhadoopHadoop 概念版本历史,HDFS工作原理,YARN介绍及组件介绍大数据存储阶段hbase;Yarn的出现使得集群资源管理和数据处理流水线分离,大大革新并推动了大数据应用层面各种框架的发展SQL on Hadoop框架, 流数据,图数据,机器学习它使得用户不再受到MapReduce开发模式的约束,而是可以创建种类更为丰富的分布式应用程序,并让。

2、学习大数据的两大基础就是JAVA和Linux,学习顺序不分前后需要同时掌握,才可以继续大数据课程的学习Java大家都知道Java的方向有JavaSEJavaEEJavaME,学习大数据要学习那个方向呢只需要学习Java的标准版JavaSE就可以了;它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快,所以它叫数据的批处理YARN是体现Hadoop平台概念的重要组件,有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用。

3、需要具备的知识有扎实的数据挖掘基础知识,精通机器学习数学统计常用算法熟悉大数据生态,掌握常见分布式计算框架和技术原理,如HadoopMapReduceYarnStormSpark等熟悉Linux操作系统和Shell编程,至少熟悉ScalaJava。

4、大数据的基础知识,科普类的,个人去买本书就行了,大数据时代这样的书很多介绍的大数据的另外大数据的技术,如数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现大数据分析挖掘与处理移动;大数据技术包括数据收集数据存取基础架构数据处理统计分析数据挖掘模型预测结果呈现1数据收集在大数据的生命周期中,数据采集处于第一个环节根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源。