大数据学习操作笔记

linux解压到指定目录命令：tar -zxvf [文件名] -C /home

centos7查看所有服务：sudo systemctl list-unit-files

Hadoop集群启动和关闭命令(node01)：
hadoop.sh start
hadoop.sh stop

WebUI:node01:9870

启动zookeeper服务
三台机器启动zookeeper服务；这个命令三台机器都要执行
zkServer.sh start
查看状态
zkServer.sh status
关闭
zkServer.sh stop

HBase
启动：start-hbase.sh
结束：stop-hbase.sh
WebUI:192.168.51.100:16010

MySQL
使用 service 启动：service mysqld start
使用 service 停止：service mysqld stop
使用 service 重启：service mysqld restart

利用sqoop导出数据到MySQL

sqoop export --connect jdbc:mysql://192.168.51.100:3306/test01 --username root --password 123456 --table xslsqysjj --export-dir /user/hive/warehouse/hive01.db/csv_test01 --input-fields-terminated-by '01' --input-null-string '\N' --input-null-non-string '\N' --m 1

HSQL建表语句

create table csv_test
(
id int,
sale_nbr String,
buy_cnt String,
buy_round String,
sale_cnt String,
sale_round String,
profit String
)
ROW format delimited fields terminated by ',' STORED AS TEXTFILE;

清空表数据（不删除结构）

truncate table 表名

将查询结果导出到新表（hive表）

insert into table [表名]
select (查询语句);

例如：

insert into table sales_sample_3_1
select day_id,sale_nbr,cnt,sum('round') from sales_sample_ok_day where sale_nbr='C%'

HSQL不支持insert into到指定列，需要严格根据select的顺序以及本表列顺序来设置插入

利用join补全数据：

例如根据两张表，其中一张表格table2含有省份和城市的信息，
其中一张表table1只有城市信息，需要补全table1 中的省份信息，可以像如下做法：
select 
    a.name,
    b.province,
    a.city
from table1 a left join table2 b on  a.city = b.city;