关于所谓大数据的一些疑惑

0.现在业界有相对成熟的OLAP和OLTP统一解决方案吗？类似地TiDB感觉都严格的限制了业务场景。如果没有，OLAP和OLTP的统一会是未来的方向和趋势吗？会达到mysql或者oracle级别的流行趋势吗？如果不能，需要把历史数据存在仓库，短期数据供OLAP,实时数据或者中间表结果表供OLTP，多套数据重复粗放并存？

1.在一个WEB系统中，运营方或业务方直接生成一条SQL或者通过组件提交在后端生成任务JAR，提交到spark，flink集群，等待结果返回至前端渲染。只有我一个人才强烈想要这种功能吗？没有这种功能，是因为有OLAP方案吗，还是业务特征不够典型？

2.实时计算和离线计算的泾渭分明在spark和flink业已成熟的今天，在技术上已经不存在了。但在业务上呢？随着业务越来越多，T1的方案在凌晨短短的几个小时窗口能否按时完成（还不谈数据延迟）？业务方每一个需求都要生成中间表结果表？

3.个人觉得对于大数据技术人员最大的挑战在于技术选型。相对于WEB开发，哪怕在现在动辄不吹点高并发大流量分布式都不好意思聊天的今天，除了分布式事务尚有争议以外，分布式锁，分布式缓存，击穿，雪崩，淘汰算法，分布式唯一健，分库，分表，读写分离，限流，熔断，降级，微服务都有了比较成熟的公认解决方案。更别说spring套装一统江湖的野心。但在大数据领域，在各个细分方向都并没有通吃的解决方案。每一个技术方案都有侧重点，不能包打全场。很多情况是，某种技术BAT在用，我朋友的公司在用，听说还不错，看官方文档性能很好。如何根据实际业务场景找到合适的技术方案，是技术，经验，合作，试错的结晶。现在的时代，对技术广度和深度都有很高的要求。

4.敏捷性。针对运营方或者业务方式的某一个需求，比如监控预警需求，可自定义数据源，目标，事件，触发，临界点，下游等等，自行得到结果。而无需技术人员现编码。

5.脱离了实际场景谈性能都是耍流氓。特别针对大数据存储领域。

6.ETL是脏活累活，不容易出成果。但觉得没有必要专门针对此搞一个职位。

7.除了BATMD等一二三线大厂，世面上绝大多数公司大谈大数据，机器学习，人工智能，重灾区是区域链（最近发现今年重庆这边区域链又死灰复燃了）。请优雅的保持微笑。

8.多大数据才算大数据啊？TB级？数据质量的兼顾呢？

9.很多情况下为了大数据而大数据。