大数据同步技术datax学习和使用

  • 学习花费2h
    • 一、安装
      • 1.安装JDK1.8及以上(推荐低版本对计算机的资源消耗少)
      • 2.安装python2.6.1
        • 添加环境变量
          • 使用的是python3和python2在用户级别的环境变量中的添加
            • 环境变量图示
        • 复制命名
          • 备注:由于python2.6.1无pip,而本人使用的过程项目对于python2没有安装需求,所以这里没有安装
          • 这里对python2.6.1中,复制python.exe文件,命名为python2.exe
        • 在cmd里切换调用
          • 切换调用
          • 提示:由于pip没有复制重命名,所以在cmd,pip时是在给python3.6.5安装插件
      • 3.安装datax
    • 二、自检
      • 进入bin目录,进行自检
        • 进入bin目录
          • 图示
        • 进行自检
          • 自检脚本:    python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
          • 本机命令
            • python2 D:装机软件python编程大数据采集技术datax/bin/datax.py D:装机软件python编程大数据采集技术datax/job/job.json
          • cmd乱码解决:输入CHCP 65001
          • 自检截图
    • 三、查看配置模板进行配置
      • 前提:要在bin目录下
      • 查看配置文件
        • python2 datax.py -r streamreader -w streamwriter
        • 图示
      • 在job文件夹下,新建json文件
        • 图示1
        • 按自己的需求配置json文件
          • 示例
            • {
              "job": {
              "content": [
              {
              "reader": {
              "name": "streamreader",
              "parameter": {
              "sliceRecordCount": 10,
              "column": [
              {
              "type": "long",
              "value": "10"
              },
              {
              "type": "string",
              "value": "hello,你好,世界-DataX"
              }
              ]
              }
              },
              "writer": {
              "name": "streamwriter",
              "parameter": {
              "encoding": "UTF-8",
              "print": true
              }
              }
              }
              ],
              "setting": {
              "speed": {
              "channel": 5
              }
              }
              }
              }
    • 四、运行Job
      • 命令
        • python2 datax.py D:装机软件python编程大数据采集技术datax/job/stream2stream.json
      • 运行截图1
      • 运行截图2
  • 使用4h(主要在调试)
    • 小练习csv数据导入mysql
      • 准备工作
        • CSV表
          • 图示
        • 创建数据库和表
          • 图示
      • 步骤
      • 遇到的问题及解决方案
        • 1、一直报json文件配置不正确
          • 原因是因为在编辑json文件时,某些字符编码发生了变化
          • 解决方案:
            • (1)从官方文档找到demo,创建json文件
            • (2)采用Hbuilder X进行编辑,检查错误
        • 2、数据库连接不上的问题
          • 原因:datax官方支持的mysql5.0版本的驱动和连接的jdbcUrl
          • 解决方案
            • 更换本机的8.0驱动
            • 修改jdbcUrl
        • 3、插入数据库失败
          • 原因:设计表时:ID设置为不为空,没有设置为自动递增
        • 4、读取的数据有乱码
          • 设置
            • "encoding": "UTF-8"
            • "encoding": "GBK"
        • 5、json配置文件错误
          • 图示1和图示2是mysql写入mysql中的json文件配置,有一个地方很容易发生错误
            • 就是在jdbcURL这里,reader里的有[],writer里的没有[]
          • 给的启示就是,多注意细节,尽量使用命令查看模板
            • python2 datax.py -r txtfilereader -w mysqlwriter
          • 图示1
          • 图示2
原文地址:https://www.cnblogs.com/quxiangjia/p/12458427.html