Jerry's Blog

hadoop关系简介

发表于 2021-05-18 更新于 2021-05-19 分类于 articles

整理一点容易混淆的hadoop关系。

Hbase:

HBase是一种Hadoop数据库，经常被描述为一种稀疏的，分布式的，持久化的，多维有序映射，它基于行键、列键和时间戳建立索引，是一个可以随机访问的存储和检索数据的平台。 HBase不限制存储的数据的种类，允许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的关系。
Hbase，其实是Hadoop Database的简称，本质上来说就是Hadoop系统的数据库，为Hadoop框架当中的结构化数据提供存储服务，是面向列的分布式数据库。这一点与HDFS是不一样的，HDFS是分布式文件系统，管理的是存放在多个硬盘上的数据文件，而Hbase管理的是类似于key—value映射的表。

Hive:

Hive是一个构建于Hadoop顶层的数据仓库，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。
Hive是基于Hadoop的一个数据仓库工具；它是MapReduce的一个封装，底层就是MapReduce程序； -> Hive可以将结构化的数据文件（eg：按照各字段分类的数据）映射成一张虚表，并提供类SQL查询功能； -> 有了Hive后我们就不用再写麻烦的MapReduce程序了。

————————————————————————分割线——————————————————————————————

贴一个hadoop HDFS常用文件操作命令，作业里用到了。感觉比较基本，很够用。