大数据分析需要把hbase、mysql等数据导入hive吗?
看做什么,如果不需要对数据进行实时处理,那么大部分情况下都需要把数据从hbase/mysql(数据库)“导入”到hive(数据仓库)中进行分析。 “导入”的过程中会做一些元数据转换等操作。
相关知识如下
数据仓库的几个概念
http://www.ppvke.com/Blog/archives/27862
什么是OLTP?
联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。也 称为实时系统(Real time System)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间。我们通常讲的业务系统都是基于OLTP的,主要的关系数据 库代表为Oracle,Sybase,DB2,SQLServer,MySQL等等。
OLTP系统的主要特点
1、事务处理
2、面向应用
3、反映当前情况
什么是数据仓库?
数 据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。目的是解决在信息技术(IT) 发展中存在的拥有大量数据、然而有用信息贫乏(Data rich-Information poor)的问题。数据仓库就其本质仍然是基于关系数据库的,其与OLTP系统最大的不同是系统的目的的不同。主要的关系数据库代表为 Oracle,Sybase,DB2,SQLServer,SybaseIQ,Terradat,MySQL等等。
数据仓库的特点
1、面向主题
2、集成性—企业数据框架
3、历史性、稳定性
什么是OLAP?
OLAP 是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从 而获得对数据的更深入了解的一类软件技术。OLAP采用了新的数据处理引擎大大加强了对海量数据的聚合和访问要求,同时满足了不同层次数据的访问。主要的 OLAP代表为SybaseIQ,MSOLAP,ESSbase等。
核心——维也称多维视图,数据立方(Data Cube)
目标——多维分析
OLAP的特点
1、灵活、动态
2、多角度、多层次的视角
3、快速
OLTP系统和数据仓库系统的区别?
虽 然OLTP系统和数据仓库系统都存储于关系数据库中,但两者的主要区别是使用目的的不同,数据仓库系统的建设只是为了隔离业务系统、整合各个不同的数据 源、形成一个统一的数据中心、以提供决策支持。究其实质,数据库对于两者的处理并无太大的区别,只是对数据仓库部分增加了一些优化措施或者没有。如 Oracle新增的各种分区支持、位图索引、平行操作、物化视图等等;Sybase公司为数据仓库的SybaseIQ产品,提供了类似位图索引的方式极大 的优化了查询速度;SQLServer2000对于数据仓库和OLTP系统的处理区别不大。 OLTP系统和数据仓库系统的差别很大程度上取决为了不同需要而进行的系统设计。总的说来两者实质物理结构是一致的,但目的是不同的。
数据仓库和OLAP的区别?
虽然数据仓库和联机分析处理 (OLAP) 这两个术语有时可互换使用,但它们却适用于通常称为决策支持系统或业务智能系统的不同组件。这些类型的系统的组件包括一些数据库和应用程序,用于为分析人员提供支持组织机构决策制定所需的工具。
数据仓库本质上仍然是一个关系数据库,包含那些通常表示某个组织机构业务历史的数据。通过分析这些历史数据,可以支持对分散的组织单元进行从策略计划到性能 评估的多级业务决策。对数据仓库中的数据进行组织是为了支持分析,而不象在联机事务处理系统 (OLTP) 中那样是为处理实时事务。
OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到 对历史数据查询的回答后,经常需要进行进一步查询。OLAP系统可以快速灵活地为分析人员提供实时支持。
本文内容来自PPV课问答社区 详见原文连接