数据预处理和基本数据安全意识

1.了解数据

01.数据量是多少?
   -总的数据个数,存储空间的大小
   -分的数据个数,存储空间的大小
  分:
    数据类型有哪些?
     -- 文件夹 文件 
    时间周期
     --
02.了解数据分布
   最大的数据多少,最小的呢,平均情况
   有无异常文件--空文件夹  find ./ -maxdepth 1 -type d  -empty
   
03.查看具体的数据示例
    查看具体的文件-确认数据的格式
	JSON--JSON文件的编码格式, JSON文件中的格式

2.数据预处理

复制
移动 : 本地移动  远程移动
转换格式
压缩文件夹
创建目录
上传数据
异常数据处理

3.流程总结:

01.事前有个预判,以期望寻求合适的解决方式
  沟通前有个相应的思路
02.大批量执行前,应以小批量数据作为基准,进行全流程的测验后,再对大数据进行处理、
  初次处理情况,做好显示执行过程,后续可以隐藏
03.慎重用 删除处理,非必要的情况下,可以用移动,或者复制
    修改文件前,注意备份,删除文件可以换成移动
04.注意做事的阻塞点,及时反馈,必要时寻求帮助
05.注意存储和传输
   存储的数量,空间大小,传输的介质,网络是否有专线,网络的占用的带宽,传输重试的次数
   计算和处理: 处理数据花费的时间,处理数据耗费的资源,处理数据的量的时间
结构化数据预处理
图像数据预处理 抽帧 去重 去畸变
音频数据预处理:
文本数据预处理

4.命令行示例

01.Linux命令行
  find ./ -maxdepth 1 -type f
 find ./ -maxdepth 1 -type d 
 ls -l | wc  -l
  scp -r user@IP:/home/oft  /home/Data
 cd /home/test/collect_data
  find /home/test -name 'test_*' -type -d | xargs -i mv {} /home/T
 cp 
 mv 
  python3 /home/testdata.py  /home/te
  -- 存储  df -h 
   du --max-depth 1 -h 
 --压缩-- 还要注意解压后的情况
 --挂载-- 硬盘初次用的时候,可能未挂载,可以查看并挂载  mount  umount
 -- 管道
02.HDFS命令行
 hadoop fs  -ls hdfs:/data 
 hadoop fs  -get hdfs:/data/test.zip /home/test
 hadoop fs  -put /home/test/mytest.txt hdfs:/data

5 程序处理方式:

 MobaXterm  Filezilla  Dbeaver  listary	
 程序处理方式
    增加异常判断和处理--比如文件不存在情况
    删除要进行输入确认--同时对删除的内容进行限定 --防御式编程  压缩的时候,删除了源文件,异常推出了
    功能解耦-装配式
    多线程多进程增加效率
    明确输入和输出
    队列的形式--便压缩,压缩完成后,进行删除
    断点--接着上次处理的地方,再进行处理

网络排查

lastb
cat .bash_history >> history.txt, 查看文件history.txt.
history 
echo $HISTSIZE
echo $HISTFILESIZE

入侵排查以及渗透测试

sudo 提权
   # root帐号外,其他帐号是否存在sudo权限--
   # 查看sudoers文件
   sudo more /etc/sudoers | grep -v "^#|^$" | grep "ALL=(ALL)"
   # 查看该用户是否是sudo组的成员 
   more /etc/group | grep sudo
具有root用户权限的SUID文件
   find / -perm -u=s -type f 2>/dev/null
排查:
  01. /etc/passwd 和 /etc/shadow
  02. Cron Jobs 提权

了解网络渗透:

渗透测试流程,应该包含以下 8 个步骤:
 主机发现 > 服务枚举 > 实施攻击 > 获取shell > 权限提升 > 权限维持 > 内网渗透 > 痕迹清除
 同时会
  改变自己路由器或者电脑的MAC地址
  进行数据加密以及IP地址隐藏 代理和肉鸡     
追踪位置:
 物理地址,使用端口,路由的MAC地址
 DNS服务器--网址记录 
概念:
   横向扩展: 被攻陷的系统为跳板,访问其他主机,获取包括邮箱、共享文件夹或者凭证信息在内的敏感资源。

加强安全措施:

自我防护 
    修改密码:普通用户运行passwd只能修改它自己的密码
    修改权限: chmod -R 500 /home/ddd
    修改用户所在组: id    groups
    端口: 封锁端口
    网络: trace

概念了解

 HISTSIZE 和 HISTFILESIZE 有什么区别
     说明: 
       HISTSIZE     定义了 history 命令输出的记录数
       HISTFILESIZE 定义了在 .bash_history 中保存命令的记录总数.  
 history显示内存和~/.bash_history中的所有内容;
       内存中的内容并没有立刻写入~/.bash_history,
 	  只有当当前shell关闭时才会将内存内容写入shell
原文地址:https://www.cnblogs.com/ytwang/p/14718331.html