.read_table() / read_csv() |
|
|
filepath_or_buffer |
文件路径 |
sep=’ ’ |
分隔符. 设置为N, 将尝试自动确定 |
delimiter=N |
sep的备用参数名 |
header='infer' |
int |
用作列名称的行号 |
ints |
若传入列表则表示这几行都将作为列标签 |
None |
文件中不包含标题行 |
'infer' |
header = 0 if name is None else None |
names=N |
作为列标签的列表 |
index_col=N |
int |
用作行标签的列 |
序列 |
使用MultiIndex |
F |
强制使用第一列作为索引 |
usecols=N |
list_like: 要读取的列, 位置或列标签 |
squeeze=F |
若果解析的数据只有一列, 则返回一个Series |
prefix=N |
在没有标题时添加到列号的前缀,例如'X'代表X0,X1,... |
mangle_dupe_cols=T |
重复的列将被指定为”X”, "X.1"...“X.N”. 传入F将导致覆盖数据 |
dtype=N |
数据或每列数据类型. 例如:{'a':np.float64,'b':np.int32} |
engine=N |
选择解析器引擎. ‘c’引擎速度更快,而’python’引擎目前更加完善 |
converters=N |
dict {key:fun(str)}. 转换某些列中的值的函数, 键是整数或列标签 |
true_values=N |
list. 要考虑的值为True ??? |
false_values=N |
list. 要考虑的值为False ??? |
skipinitialspace=F |
跳过分隔符后的空白符 |
skiprows=N |
要跳过的行号(list)或要跳过的行数(integer) |
nrows=N |
要读取的文件的行数. 适用于读取大文件的片段 |
na_values=N |
识别为NaN的字符串或字符串列表 |
keep_default_na=T |
T设置的na_values追加到默认识别为NaN值的列表, 否则将覆盖默认 |
na_filter=T |
是否检测Na值, 在确定没有Na的数据中设置为F可提高读取大文件的性能 |
verbose=F |
是否显示每一列中的NA值的数量
|
skip_blank_lines=T |
如果为T, 则跳过空白行, 而不是解释为NaN值 |
parse_dates=F |
True: 尝试将索引解析成日期 |
[位置或标签]: 尝试将这些列解析成日期 |
[[位置或标签]]: 合并这些列并尝试将其解析成日期 |
{name: [位置或标签]}: 合并指定列指定标签为name, 并尝试将其解析为日期 |
infer_datetime_format=F |
True: 尝试加快parse_dates解析速度 |
keep_date_col=F |
True: 若parse_dates解析成的日期列没有占用原数据标签, 则保留原始列 |
date_parser=N |
用于将字符串转换为datetime的函数, 默认dateutil.parser.parser |
dayfirst=F |
True: 识别欧洲格式日期(日-月-年), 默认将识别为(月-日-年) |
iterator=F |
生成迭代器, 通过迭代或get_chunk()获取数据块(默认全部) |
chunksize=N |
int: 生成迭代器, 通过迭代或get_chunk()每次获取此参数指定大小的数据块 |
compression='infer' |
{'infer','gzip','bz2','zip','xz',None} 用于磁盘上数据的即时解压缩。如果“infer”,则使用gzip,bz2,zip或xz,如果filepath_or_buffer是分别以“.gz”, “.bz2”, “.zip”或“xz”结尾的字符串,否则不进行解压缩。如果使用'zip',ZIP文件必须只包含一个要读入的数据文件. 设置为无, 无解压缩 |
thousands=N |
str: 千位分隔符, 默认无 |
decimal='.' |
可识别为小数点的字符 |
lineterminator=N |
str(length 1) 将文件拆分成行的字符, 只有C解释器有效 |
quotechar='"' |
str(length 1) 用于表示带引号项目的开始和结束的字符. 引号项可以包含分隔符, 它将被忽略 |
quoting=0 |
3: quotechar参数将不会生效 |
escapechar=N |
??? |
comment=N |
str(length 1) 以此字符开头的行将被当做空白行处理 |
encoding=N |
编码 |
dialect=N |
??? |
tupleize_cols=F |
当选择多行作为列标签时, 默认生成多级索引, 若设置为True, 则会把多个索引组成元组作为单个标签 |
error_bad_lines=T |
False: 异常行将被删除 |
warn_bad_lines=T |
error_bad_lines为False, 且此参数为True, 将会输出每一个error行的警告 |
skipfooter=0 |
跳过文件底部的行数(不支持engine ='c') |
skip_footer=0 |
弃用, 使用skipfooter参数 |
doublequote=T |
将连续多个quotechar指定的字符当做一个来识别 |
delim_whitespace=F |
指定是否将空白用作分隔符, 相当于设置sep='s+'. 若设为True, 则不应为delimiter参数传入任何内容(支持Python解释器) |
compact_ints=F |
将被删除 |
use_unsigned=F |
将被删除 |
low_memory=T |
??? |
buffer_lines=N |
将被删除
|
memory_map=F |
如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存上,并从中直接访问数据。使用此选项可以提高性能,因为不再有任何I / O开销 |
float_precision=N |
??? |
.read_fwf() |
读取固定宽度格式的文件 |
|
|
|
.read_msgpack() |
??? |
|
|
|