[数据科学] 从text, json文件中提取数据

文本文件是基本的文件类型，不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取。

#-*- coding: utf-8 -*-
fpath = "data/textfile.txt"

f = open(fpath, 'r')

## 按照字符读取字符
first_char = f.read(1)
print "first char: ", first_char

## 改变文件对象的位置, 位置是按照bytesize计算的
## 如果不把位置转到开始，后来读取都是从现在的位置开始
f.seek(0)

## 读取文件所有的内容
all_chars = f.read()
print all_chars

## 按照行读数据
f.seek(0)
first_line = f.readline()
print 'first line: ',first_line

## 读取所有行
f.seek(0)
all_lines = f.readlines()
num_lines = len(all_lines)
print "number of lines: ", num_lines

for i, line in f:
    print i, line

在数据科学中，json也是最常用的文件形式之一，python对json有很好的支持。

import json

f = open('data/donut.json', 'r')
## 根据json的形式，读取出来的数据是list 或者 dict
data = json.load(f)

print "type: ", type(data)
print data