MaxCompute问答整理之8月

本文是基于对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。

问题一、通过数据源数据增量同步后,如何查看某一条数据具体被同步到MaxCompute中的时间?
不支持,查看不了,可以看表元数据的LastModifiedTime时间,但具体某个记录看不到时间。

问题二、开发的数据处理脚本能否在不同地区项目空间迁移?
跨项目克隆只能同账号同region,所以不同地区之间可以使用项目备份恢复来完成。
可参考官方文档操作:https://help.aliyun.com/document_detail/95940.html
温馨提示:此功能现阶段支持恢复文件大小必须是30M以下大小,后续会更新版本,请大家持续关注。

问题三、创建工作空间时,会碰到客户端显示project不存在,或者切换空间显示project不存在,这是什么原因?
一般这种问题,是因为开通账号之后,在建project时没有选择MaxCompute计算引擎服务导致的。
可以重新建project来解决问题。正确选择如下。

温馨提示:按量付费和包年包月选项是需要购买服务才可以。开发者版本可免费试用。
开发者版开通地址:https://promotion.aliyun.com/ntms/act/cloud/maxcdeveloperfbh.html

问题四、如果把MaxCompute作为大数据平台,接入整个业务体系数据,有mysql,sqlserver等各种数据源。当源数据库的表,字段变更了,有没有好的监控手段。比如字段长度变长,表增加字段,等DDL操作。因为业务是变化的,这种如果监控不及时,整个调度流程是不是就会崩?
当前MaxCompute仅支持在DataWorks控制台数据地图中查看内部数据的变动以及监控。外部数据源的字段变化,当前是没有办法监控到。后续如有好的解决办法,会社群通知,请大家持续关注。

问题五、如何批量查询表的元数据?
在8月13日,由阿里云智慧事业群产品专家曲宁直播阿里巴巴大数据产品最新特性介绍—MaxCompute,其中有一项Information Schema元数据服务,以视图的形式提供准实时的元数据,包括Tables、PartitionsColumns、UDFs、Resources、Users、Roles、Packages、数据对象的授权信息、作业运行信息等。大家可以通过提交工单进行新功能测试申请
提交方法可参考:https://help.aliyun.com/document_detail/128366.html

问题六、使用 Pyodps 统计一个表里面某个字段的空值率的时候,是推荐用 execute_sql 来执行 SQL 语句来查询, 还是推荐用 DataFrame 来执行聚合操作。哪个性能更高?
DataFrame聚合性能更高一些,所以推荐使用DataFrame来执行聚合操作。具体DataFrame如何聚合操作可参考
官方文档:https://help.aliyun.com/document_detail/90458.html

问题七、MaxCompute常见错误信息如何理解,怎么定位问题?
MaxCompute的常见报错信息编号有规范定义,异常编号:通用描述 - 上下文相关说明。其中SQL、MapReduce、Tunnel的错误信息是不一样的。官方文档中列举了一些错误信息,
大家可以查询一一对应报错信息:https://help.aliyun.com/document_detail/34636.html

问题八、DataWorks中如何跨业务流程依赖?
可以通过节点方式解决,下游业务流程的第一个节点依赖上游业务流程的最后一个节点。

问题九、MaxCompute客户端(odpscmd)在windows命令行下查询中文乱码如何解决?
odpscmd中出现中文乱码是因为中文字符集的编码方式不一致导致的,
可以参考一篇实践文档来解决问题:https://yq.aliyun.com/articles/706600

问题十、MaxCompute Sql中如何判断一个字段是否为空?
IS NULL。MaxCompute Sql中包含关系运算符、算数运算符、位运算符、逻辑运算符。
可参考官方文档:https://help.aliyun.com/document_detail/27861.html

本文作者:亢海鹏

原文链接

本文为云栖社区原创内容,未经允许不得转载。

原文地址:https://www.cnblogs.com/zhaowei121/p/11475245.html