前言

一、为什么要写这个

今年是我做工程师的第6个年头,回顾这6年虽然接触了不少东西,也学到了不少知识。但是实际上沉淀下来的东西很少。有时候回想起来,要说什么东西不会嘛,会的东西其实也不少(起码CURD灰常熟练)。但是要说什么都会,但是也没有系统的总结过。

最近闲来无事,在翻看《Hadoop 权威指南》。这本书是我2019年购买的,但是因为一些原因只看了几小结,其实主要原因是因为懒,所以就读了几小结就放书架上吃灰了。

写这篇文章的时间是2023年01月16日,请别问我为什么最近没事做

虽然之前只是读了几小结,但是里面的内容却让我过目难忘,比如HDFS,MapReduce。加上没事做真的很无聊,于是抱着起码把售价赚回来的态度决定学习一下。但是只看书不运用还是比较枯燥的,于是乎决定写几篇文章,主要是为了记录一下,顺便检验一下自己对Hadoop的学习程度。

二、我怎么理解Hadoop

Hadoop是一个通用的大数据存储与分析平台,它的基础组件包括HDFS,MapReduce,Yarn。HDFS解决了大数据如何存储。MapReduce通过Map(映射)和Reduce(归并)两个步骤的操作,通过化整为零来处理大数据。Yarn负责调度大数据运算中的所需的计算资源。

Hadoop发展到今天已经不单单只是对大数据批处理的系统了,它还有一些相关的开源项目。例如用于数据格式的Auro、Parquet,用于数据处理的Pig、Hive、Spark。

三、这个系列的内容

这个系列的名字叫《Hello Hadoop》,灵感来源于我在github看到的一个系列《Hello ZooKeeper》,这是一篇介绍Zookeeper的入门文章。

本系列内容主要来源于对《Hadoop 权威指南》第4版的阅读总结和我自己在网上查询的资料。前几章先介绍一下Hadoop的基础操作,例如如何操作HDFS,如何简单运行一个MapReduce示例程序。后面会详细介绍MapReduce。之后就是对Hadoop的一些开源项目的介绍。计划是过年前每周更新1-2篇,之后每周更新1篇。

四、致歉

由于我也是刚学习Hadoop,文章内容主要来源于自身的理解和动手实践,所以可能会出现一些错误,如果对您产生了误导,请联系我更正。如果你也是刚接触Hadoop,有一些不同的观点,欢迎联系我进行交流。

感觉估计也没人看哈哈哈????