首页 › 转载文章 › 正文

01前言

摸鱼陈转载文章 2023-01-25 77 0 原文

前言

一、为什么要写这个

今年是我做工程师的第6个年头，回顾这6年虽然接触了不少东西，也学到了不少知识。但是实际上沉淀下来的东西很少。有时候回想起来，要说什么东西不会嘛，会的东西其实也不少（起码CURD灰常熟练）。但是要说什么都会，但是也没有系统的总结过。

最近闲来无事，在翻看《Hadoop 权威指南》。这本书是我2019年购买的，但是因为一些原因只看了几小结，其实主要原因是因为懒，所以就读了几小结就放书架上吃灰了。

写这篇文章的时间是2023年01月16日，请别问我为什么最近没事做

虽然之前只是读了几小结，但是里面的内容却让我过目难忘，比如HDFS，MapReduce。加上没事做真的很无聊，于是抱着起码把售价赚回来的态度决定学习一下。但是只看书不运用还是比较枯燥的，于是乎决定写几篇文章，主要是为了记录一下，顺便检验一下自己对Hadoop的学习程度。

二、我怎么理解Hadoop

Hadoop是一个通用的大数据存储与分析平台，它的基础组件包括HDFS，MapReduce，Yarn。HDFS解决了大数据如何存储。MapReduce通过Map（映射）和Reduce（归并）两个步骤的操作，通过化整为零来处理大数据。Yarn负责调度大数据运算中的所需的计算资源。

Hadoop发展到今天已经不单单只是对大数据批处理的系统了，它还有一些相关的开源项目。例如用于数据格式的Auro、Parquet，用于数据处理的Pig、Hive、Spark。

三、这个系列的内容

这个系列的名字叫《Hello Hadoop》，灵感来源于我在github看到的一个系列《Hello ZooKeeper》，这是一篇介绍Zookeeper的入门文章。

本系列内容主要来源于对《Hadoop 权威指南》第4版的阅读总结和我自己在网上查询的资料。前几章先介绍一下Hadoop的基础操作，例如如何操作HDFS，如何简单运行一个MapReduce示例程序。后面会详细介绍MapReduce。之后就是对Hadoop的一些开源项目的介绍。计划是过年前每周更新1-2篇，之后每周更新1篇。

四、致歉

由于我也是刚学习Hadoop，文章内容主要来源于自身的理解和动手实践，所以可能会出现一些错误，如果对您产生了误导，请联系我更正。如果你也是刚接触Hadoop，有一些不同的观点，欢迎联系我进行交流。

感觉估计也没人看哈哈哈????

喜欢 (0)

linux挂载新硬盘

02安装一个最小化的Hadoop

发表评论点击这里取消回复。