ALINK(十五):数据处理(二)数据划分 (二) 其他

分层随机采样 (StratifiedSampleBatchOp)

Java 类名:com.alibaba.alink.operator.batch.dataproc.StratifiedSampleBatchOp

Python 类名:StratifiedSampleBatchOp

功能介绍

本算子是对每个类别按照比例进行分层随机抽样。

https://www.yuque.com/pinshu/alink_doc/31c999e19edb664c26f24da1aae0a04d

前N个数 (FirstNBatchOp)

Java 类名:com.alibaba.alink.operator.batch.dataproc.FirstNBatchOp

Python 类名:FirstNBatchOp

功能介绍

该组件输出表的前N条数据。

https://www.yuque.com/pinshu/alink_doc/06a5b0dfda83758f2d34208d091b6fd5

加权采样 (WeightSampleBatchOp)

Java 类名:com.alibaba.alink.operator.batch.dataproc.WeightSampleBatchOp

Python 类名:WeightSampleBatchOp

功能介绍

  • 本算子是按照数据点的权重对数据按照比例进行加权采样,权重越大的数据点被采样的可能性越大。

https://www.yuque.com/pinshu/alink_doc/08b543a27156b336f3209f8b5534a5df

固定条数分层随机采样 (StratifiedSampleWithSizeBatchOp)

Java 类名:com.alibaba.alink.operator.batch.dataproc.StratifiedSampleWithSizeBatchOp

Python 类名:StratifiedSampleWithSizeBatchOp

功能介绍

本算子对输入数据的每个类别进行指定个数的分层随机抽样。

https://www.yuque.com/pinshu/alink_doc/d0aacbc78b9e50a43e7ffef14132f08c

固定条数随机采样 (SampleWithSizeBatchOp)

Java 类名:com.alibaba.alink.operator.batch.dataproc.SampleWithSizeBatchOp

Python 类名:SampleWithSizeBatchOp

功能介绍

  • 本算子对数据按个数进行随机抽样,每个样本都以相同的概率被抽到。

https://www.yuque.com/pinshu/alink_doc/90730c8bb1a4e741571aa0e0f1102a06

打乱数据顺序 (ShuffleBatchOp)

Java 类名:com.alibaba.alink.operator.batch.dataproc.ShuffleBatchOp

Python 类名:ShuffleBatchOp

功能介绍

该组件打乱数据的顺序。

https://www.yuque.com/pinshu/alink_doc/4494511464e1560f480e2835671c2b18

 

 

 

 

原文地址:https://www.cnblogs.com/qiu-hua/p/14887684.html