数据仓库介绍

面向业务的数据库常叫 OLTP(on-line transaction processing)面向分析的数据仓库常叫OLAP(On-Line Analytical Processing)，区别见：

https://www.cnblogs.com/hongfeng2019/p/12004551.html

一个交易流程包括多个事务，比如定单，支付等，比如购物篮的分析，比如做了一次活动后的分析，比如拉新转换率有多高，这些都是面向场景的分析。还有支持决策的分析，如BI

转换： sqoop能做一些简单的转换，更多的是在ETL里面用 hive sql做的，或者用sacal,spark写。

Bill inmon <building the data warehouse>, 认为数仓是bi的一部分，自上而下，但往往实施时候在上层梳理业务工作量很大，而且不免遗漏。

RALPH KIMBALL 《the data warehouse toolkit》认为数据仓库是企业所有数据集市的集合，分解，一个集市一个集市的做，比如先做财务的，再做出行的，一个一个的做成功率加大。数据集市多了后会出现数据不一致的情况

两种思路和观点在实际的操作中都很难成功的完成项目交付，直至最终Bill Inmon提出了新的BI架
构CIF(Corporation information factory), 就是层次化划分。把数据集市包含了进来。CIF的核心是将数仓架构划分为
不同的层次以满足不同场景的需求，比如常见的ODS、DW（又分为明细数据，和上层的汇总数据，根据不同公司的业务场景又分为DWDDWM层等）、DM等，每层根据实际场景采用不同
的建设方案，改思路也是目前数据仓库建设的架构指南，但自上而下还是自下而上的进行数据仓
库建设，并未统一。

ODS到数仓DW之间做的一件事就是数据的清洗。 APP指应用层，比如个性化推荐、用户画像等

其实采集到ODS也是ETL的一部分，可以说整个架构都在做ETL

阿里： one data one service

datax:阿里开源的，采集mango,es

flume:采集日志

------------------------------

spark ml:机器学习的

spark core,spark streaming: 实时的

-------------------------------

调度平台是核心：

未来更广泛的应用场景：

数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶（需要根据大量的特征训练出来的结果）
数据化运营、精准运营
广告精准、智能投放

应用场景分类：

实时计算：通常为独立的常驻进程，实时处理数据流，也就是常说的流计算。

实时场景
1、个性化推荐
实时：用户实时信息，比如位置、设备、当前会话浏览情况、最近的浏览离线：商品关联关系、用户相似性特征、位置偏好、设备偏好、关联偏好
2、用户画像
实时：实时位置标注、当前偏好标注、当前设备标注
离线：常驻位置、稳定偏好、常用设备、消费水平等标签
3、风控
反欺诈、防刷单、薅羊毛等
实时：用户位置、IP、设备、通讯录等
离线：风险区域、风险用户、风险设备、多头等

实时推荐简单技术实现框架：

埋点日志也可以打到数据通道kafka里，然后传给ELK,做实时日志监控，即应用监控