爬虫数据存储

爬取的数据，需要保存，可以存储在文件中或者数据库中。

存储在文件中，包括txt、csv、json；
存储在数据库中，包括MySQL关系数据库和MongoDB数据库。

python 字典操作参考：
http://jianwl.com/2017/08/22/高效实用Python字典的清单/

python 读写参考：
https://www.cnblogs.com/liutongqing/p/6892099.html

1、基本存储：存储至txt、csv、json

（1）存入txt文件(saving_data.py)

all_house数据结构：all_house[{'house_area':dd,'price':dd,'build_year':dd},{},{}...]

f=open('net_saving_data.txt','w');
for item in all_house:
    # house_area=item['house_area'];
    # price=item['price'];
    output='	'.join([str(item['house_area']),str(item['price']),str(item['build_year'])]);
    f.write(output);
    f.write('
');
f.close();

效果如图：

若需要将几个变量写入txt中，可以用' '.join(["house_area","price","build_year"]),注意join()内是个列表。

（2）存入CSV文件(saving_data.py)

CSV(Comma-Separated_values),以逗号分隔值的文件格式，文件以纯文本格式存储表格数据（数字和文本），每一行以换行符分隔，列与列之间用逗号分隔。与txt比较，能够存储的数据大小差不多，但是数据以逗号分隔较整齐，所有python网络爬虫经常用此来存储数据。

从字典中写入csv文件

import csv;

f=open('net_saving_data.csv','w');
csv_write=csv.writer(f);
for item in all_house:
    csv_write.writerow([item.get('house_area',None),item.get('price',None),item.get('build_year',None)]);
    #f.write('
');
f.close();

效果如图：

若是想在csv中加入key值，操作如下：

csv_write.writerow(['house_area',item.get('house_area',None),'price',item.get('price',None),'build_year',item.get('build_year',None)]);

效果如图：

从列表中写入csv文件

houses=[['2edr','ser','sge'],['as','hi','hioh','aaajio']];
f=open('saving_data.csv','w');
csv_write=csv.writer(f);
for house in houses:
    csv_write.writerow([item for item in house]);
f.close();

效果如图：

（3）写入json文件

##写入
with open("anjuke_salehouse.json","w",encoding='utf-8') as f:
    json.dump(all_house,f,ensure_ascii=False);
    print(u'加载入文件完成...');

2、csv、json、txt读取：

（1）csv读取

-参考：https://www.cnblogs.com/liutongqing/p/6892099.html

import csv;
houses=[];
with open('net_saving_data.csv','r') as openscv:
    csv_reader=csv.reader(openscv);
    for row in csv_reader:
       houses.append(row); 
    openscv.close();
print houses;

原数据界面：

读取数据界面如下：

（2）json读取

##读入
with open("anjuke_salehouse.json",'r',encoding='utf-8') as f:
    load_dict=json.load(f);
print (load_dict);

什么的不要想，直接load出来的就是json文件格式一模一样的一个对象。 主要是防止乱码的等参数设置。

（3）txt读取

参考文章：https://blog.csdn.net/shandong_chu/article/details/70173952

with open('net_saving_data.txt','r') as opentxt:
    txt_reader=opentxt.readlines();
for lin in txt_reader:
    print (lin);

3、MySQL数据库操作

建库、更删改查，因为下面涉及一些对数据库的操作，现在这里复习一下基本的更删改查

（1）建数据库、建表

create table urls(id int NOT NULL auto_increment,url varchar(1000) NOT NULL,content varchar(4000) NOT NULL,created_time timestamp default current_timestamp,primary key(id));
*/

（2）查表结构或查database

describe urls;
show databases;

（3）表中插入数据

insert into urls(url,content)values("www.baidu.com","这是内容。")
select * from urls where id=1;

（4）从数据表中提取数据

insert into urls(url,content)values("www.blog.com","博客网址。");
select * from urls ;

（5）删除数据

delete from urls where url='www.baidu.com';
select * from urls ;

（6）修改数据
将id=2的content改成博客园

insert into urls(url,content)values("www.santostang.com","Santos blog");
update urls set url='www.blog.com',content="博客园" where id=2;
select * from urls ;

（7）语句参考地址：https://blog.csdn.net/ljxfblog/article/details/52066006

UNION

select * from a order by id) union (select * from b order by id);

如果不同的语句中取出的行，有完全相同(这里表示的是每个列的值都相同)，那么union会将相同的行合并，最终只保留一行。也可以这样理解，union会去掉重复的行。如果不想去掉重复的行，可以使用union all。如果子句中有order by,limit，需用括号()包起来。推荐放到所有子句之后，即对最终合并的结果来排序或筛选。两次查询的列数必须一致

JOIN

//使用连表查询
SELECT Persons.LastName, Persons.FirstName,Orders.OrderNo
FROM Persons, Orders
WHERE Persons.Id_P = Orders.Id_P 

//使用join查询(inner join)
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
INNER JOIN Orders
ON Persons.Id_P = Orders.Id_P
ORDER BY Persons.LastName

有时为了得到完整的结果，我们需要从两个或更多的表中获取结果。我们就需要执行 join。数据库中的表可通过键将彼此联系起来。主键（Primary Key）是一个列，在这个列中的每一行的值都是唯一的。在表中，每个主键的值都是唯一的。这样做的目的是在不重复每个表中的所有数据的情况下，把表间的数据交叉捆绑在一起。上面的例子中使用的 INNER JOIN（内连接），JOIN默认使用内连接，可以省略INNER。我们还可以使用其他几种连接。

LEFT JOIN

//使用left join查询,只要左表有匹配的条件，就会生成一行，右表的列值为空。
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
LEFT JOIN Orders
ON Persons.Id_P=Orders.Id_P
ORDER BY Persons.LastName

RIGHT JOIN

//使用right join查询,只要右表有匹配的条件，就会生成一行，左表的列值为空。
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
RIGHT JOIN Orders
ON Persons.Id_P=Orders.Id_P
ORDER BY Persons.LastName

FULL JOIN

//使用full join查询,只要其中一个表中存在匹配，就会生成一行，另一个表的列值为空。
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
FULL JOIN Orders
ON Persons.Id_P=Orders.Id_P
ORDER BY Persons.LastName

JOIN: 如果表中有至少一个匹配，则返回行（INNER JOIN 与 JOIN）
LEFT JOIN: 即使右表中没有匹配，也从左表返回所有的行
RIGHT JOIN: 即使左表中没有匹配，也从右表返回所有的行
FULL JOIN: 只要其中一个表中存在匹配，就返回行

ALTER

alter table urls add created_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP;
#增加一列
alter table test modify content char(10) 
#修改表列类型

4、python操作MySQL数据库

参考文献：https://www.cnblogs.com/whatisfantasy/p/6134660.html

在操作数据库的时候，python2中一般使用mysqldb，但在python3中已经不在支持mysqldb了，我们可以用pymysql和mysql.connector。本文的所有操作都是在python3的pymysql下完成的。python -m pip install pymysql

mysql -u root -p
using mysql;
select host,user from mysql.user;

mysql的host、user、password等信息。

查询

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor();#获取方法，创建游标

sql='select * from urls';
recount=cur.execute(sql);#操作execute()方法写入sql语句
data=cur.fetchall(); # 返回数据,返回的是tuple类型
print data;

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping')用于创建数据库的连接，里面指定参数（用户名，密码，主机信息）。cur=conn.cursor()通过获取的数据库连接conn下的cursor()方法来创建游标，之后通过游标操作execute()方法写入纯SQL语句。完成MySQL数据库操作后，需要关闭游标cur和连接conn。

插入数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor();

sql1='insert into urls(url,content)values(%s,%s)';
params=('www.sinlang.com','新浪微博');
recount=cur.execute(sql1,params);
##executemany 批量插入
li=[('www.blogs.com','批量插入的第一个'),('www.sou.com','批量插入的第二个')];
sql2='insert into urls(url,content)values(%s,%s)';
recount=cur.executemany(sql2,li);

sql3=sql='select * from urls';
recount=cur.execute(sql3);
data=cur.fetchall();
conn.commit;
cur.close;
conn.close;

print data;
#返回的都是元组((1,'','',time),(2,'','',time)...(6,'','',time));

其中commit只要执行一次，以上都是返回元组。

插入数据，返回dict类型的数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);# 参数设置
sql='select * from urls';
recount=cur.execute(sql);

data=cur.fetchall();
cur.close();
conn.close();
print recount;
print data;
#返回的是列表含字典[{u'url': 'www.baidu.com', u'content': 'xxx', u'id': 1, u'created_time': datetime.datetime(2018, 8, 22, 22, 2, 23)}, {xxx}, {xxx}];

fechone来逐条获取数据或者for循环

for 循环获取数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from urls';
recount=cur.execute(sql);

data=cur.fetchall();
for i in range(len(data)):
    print data[i]
cur.close();
conn.close();
print recount;

fechone来逐条获取数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from urls';
recount=cur.execute(sql);

cur.close();
conn.close();
print recount;

for i in range(recount):
    data=cur.fetchone();
    print data;

两种方法获取结果都如下：

用户登录的功能，可见
https://www.cnblogs.com/whatisfantasy/p/6134660.html

5、爬取网页数据存入MySQL数据库

（1）在cmd 数据库中先创建database 和相应表；

create database anjuke;
use anjuke;
create table anjuke (id int not null Auto_increment,house_title varchar(1000) not null,house_layout varchar(1000) not null,house_area int not null,house_levers int not null,brokername varchar (1000),address varchar(2000),price int not null,primary key(id));

（2）将数据插入数据库中，爬取的数据格式如下[{},{},{},{}]。for循环列表，提取每一个字典中的信息，建立sql语义传参至execute中。

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='anjuke');
cur=conn.cursor();
for item in all_house:
    house_title=item['house_title'];
    house_layout=item['house_layout'];
    house_area=item['house_area'];
    house_levers=item['house_levers'];
    brokername=item['brokername'];
    house_address=item['house_address'];
    price=item['price'];
    sql='insert into anjuke(house_title,house_layout,house_area,house_levers,address,brokername,price) values (%s,%s,%s,%s,%s,%s,%s)';
    #parme=(house_title,house_layout,house_area,house_levers,house_address,brokername,price);
    #cur.execute(sql,parme);
    cur.execute(sql,(house_title,house_layout,house_area,house_levers,house_address,brokername,price));
conn.commit();
cur.close();
conn.close();

（3）读取存入MySQL数据库de网页爬取数据,可以[{},{},{}...{}]或者{}/n{}/n{}/n.../n{}形式输出。

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='anjuke');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from anjuke';
cur.execute(sql);
conn.close();
cur.close();
data=cur.fetchall();#[{},{},{}...{}]
print data;

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='anjuke');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from anjuke';
recount=cur.execute(sql);
conn.close();
cur.close();
for i in range(recount):
    data=cur.fetchone();
    print data;

可close()后，再对cur进行data的输出。

总结 NOTE

数据存至txt csv有固定格式，记住就好
存到mysql，主要是连接数据库：conn=mysql.connect()、获取游标：cur=conn.cursor、对数据库操作：cur.execute(sql)、获取数据库：cur.fetchall()四个操作进行数据库操作。一般获取后，可以不用commit，存入数据等需要conn.commit()，但都要conn.close(),cur.close()。
另外深入可参考：http://www.runoob.com/python/python-mysql.html