大数据处理心得

1.建表：

分析数据量的大小：每天的增量超过1000万，果断建成按时间每天分区的分区表；

每月的增量超过1000万，果断建成按时间每月分区的分区表；

分析需求，根据哪些数据是经常需要查询的，建立索引，分区表一般建立本地索引比较好维护；

根据哪些数据是需要组合查询的，可以建立组合索引。

2.数据入库：如果数据需要复杂的处理和过滤，可以用java或者shell脚本将数据预先处理好；

　　　　　然后通过sqlldr／java的批量插入／存储过程将数据入库。

3.数据统计：对于查询大数据量会很慢，就写一些定时脚本事先统计好那些固定要查的数据插入另外一个表中。

4.sql语句的优化：写好统计语句时查看sql的执行计划；

sql的条件里尽量用到建立索引的字段；

写sql时的条件参数不要拼接，那样数据库会硬解析，增加数据库的负担；