Tensorflow io demo (待)

https://blog.csdn.net/qq_40913465/article/details/104790258

1、tf.data.TextLineDataset

2、tf.decode_csv

https://blog.csdn.net/AI_LX/article/details/89513309

tf.decode_csv(
      tf.decode_csv(
      records,
      record_defaults,
      field_delim=’,’,
      na_value=’’,
      select_cols=None
)

将每条记录转换为张量。每一列映射到一个张量.
records: 字符串类型的张量。每个字符串都是csv中的记录/行,所有记录都应该具有相同的格式。
record_defaults: 具有特定类型的张量对象的列表,必须为二维,如[['0.0'], [0.0]],可接受的类型有float32、float64、int32、int64、string。
field_delim: 可选字符串。默认为“,”,必须是单个字符。用于分隔记录中的字段的char分隔符。
use_quote_delim:可选bool。默认值为True。如果为false,则将双引号作为字符串字段内的正则字符
name:操作的名称(可选)。
na_value:要识别为NA/NaN的附加字符串。
select_cols:要选择的列索引的可选排序列表。如果指定,则只解析和返回这个列子集。

返回:
张量对象的列表。具有与record_defaults相同的类型。每个张量的形状都和记录中的一样。

3、TableRecordDataset

https://help.aliyun.com/document_detail/173165.html?spm=a1z2e.8101737.webpage.dtitle0.6d914f9bc3yHM0
使用TableRecordDataset接口按照行读取MaxComepute表数据并构建数据流

class TableRecordDataset(Dataset):
  def __init__(self,
               filenames,
               record_defaults, 
               selected_cols=None,
               excluded_cols=None,
                slice_id=0,
                slice_count=1,
               num_threads=0,
               capacity=0):

filenames: 待读取的表名集合(列表),同一张表可以重复读取;
record_defaults: tuple, 每个元素是标量.系统支持的数据类型包括FLOAT32、FLOAT64、INT32、INT64、BOOL及STRING。注意该参数与tf.decode_csv()不同!
elected_cols: 选取的列,格式为英文逗号(,)分隔的字符串;

原文地址:https://www.cnblogs.com/ying-chease/p/13434191.html