datax分析与思考(一)


Datax

总体流程图

先看执行的第一个步骤:

在最上层抽象类,这个里面相当于获取全局公共信息,java入口部分就是这个Engine的main方法直接启动

Engine 启动

com.alibaba.datax.core.Engine#main直接启动

阿里这边有提供多级JSON配置信息无损存储

com.alibaba.datax.common.util.Configuration

但是平常的使用中很少有直接以json的格式操作,一般是转成对象bean,然后进行操作,
他在这边新写这个方法的目的主要在于对封闭的json进行处理,直接从key获取到value,但是我感觉还是可以直接转成bean的形式去获取比较方便.毕竟只有一个json的文件

直接main方法启动,在datax.py脚本中设置了锁需要的参数和json地址, 在启动的时候通过读取启动参数,获取到当前的启动配置文件.
这边阿里使用了

<dependency>
    <groupId>commons-cli</groupId>
    <artifactId>commons-cli</artifactId>
    <version>1.3.1</version>
</dependency>

这个包 ,然后使用

Options options = new Options();
        options.addOption("job", true, "Job config.");
        options.addOption("id", true, "Job unique id.");
        options.addOption("mode", true, "Job runtime mode.");
        DefaultParser parser = new DefaultParser();
        CommandLine cl = parser.parse(options, args);
        String job = cl.getOptionValue("job");
        String id = cl.getOptionValue("id");
        String mode = cl.getOptionValue("mode");

来根据参数的名字进行读取.这个地方平常很少有用到,可以记录下.

datax在执行的过程中打了很多的日志,有个打印vminfo的class我感觉可以在平常使用到,之前我也写过这种类似的,但是说效果不是很好,因为我之前是使用的脚本去查询的服务器上面的信息.

com.alibaba.datax.common.statistics.VMInfo#getVmInfo

这个类的话,在日志监控或者效率监控也可以使用到.

com.alibaba.datax.core.Engine#start 进入真正的执行方法

前面基本上都是在对性能参数的赋值,然后获取到了一个List<Configuration> taskConfigs,将这个list转成了map,然后再循环中开多线程执行任务.

https://github.com/fulln

优质内容筛选与推荐>>
1、Web服务之五:基于openssl定义https服务器的配置
2、HTML基础篇之知识点补充和拓展
3、空间日志编辑器:word文档图文快速粘贴到web
4、openresty
5、Django - cookies 会话跟踪技术


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号