MIT-Adobe FiveK Dataset 图片自动下载

MIT-Adobe FiveK Dataset 图片自动下载

　　注：经过网友的提示，发现有更为方便的获得C修过的图片。只需要下载原始的50G的raw图片，然后在电脑上面安装light room，这个软件可以应用数据集中所记录的各个修图人员的操作数据，因此里面记录了所有五个人修过的图片数据，具体可以参考：https://github.com/yuanming-hu/exposure/wiki/Preparing-data-for-the-MIT-Adobe-FiveK-Dataset-with-Lightroom

　　MIT-Adobe FiveK是现在很多做图像增强（image enhancement）与图像修饰（image retouching）方面研究的人员经常会使用到的数据库。这个数据库中包含5000张dng格式的原始图片及分别由五个（A，B，C，D，E）专业修图人员手工修饰后的图片。关于该数据库的详细资料可以在：https://data.csail.mit.edu/graphics/fivek/上找到。博主目前也在作图像增强方面的算法，在该网站上面，虽然提供了原始图片的下载链接，但是修饰后的图片只提供了每个图片的独立下载链接，手工对这些图片一张张下载的话，肯定是一件令人抓狂的事情，因此博主打算应用一个python脚本来自动下载所需要的图片。

　　查看网页的源码，发现这些经过修饰后的图片的URL存在一定的规律，例如：由C修饰的第一张图片的URL为https://data.csail.mit.edu/graphics/fivek/img/tiff16_c/a0001-jmac_DSC1459.tif。该地址可以划分为三部分：https://data.csail.mit.edu/graphics/fivek/img/（不变），tiff16_c（代表C修饰的图片，如果最后一个字母是D，那么就代表D所修饰的图片），a0001-jmac_DSC1459.tif（文件名）。发现这一规律之后，我们就可以运用简单的python脚本，通过图片的文件名来将图片下载到本地。

　　数据集中所有文件的名称在下载原始图片的时候就可以下载下来，它们被分别放置在名为：filesAdobe.txt和filesAdobeMIT.txt这两个文件中。自动下载的脚本如下：

import os
import sys
from urllib.request import urlretrieve

#改变当前工作路径
CURRENT_PATH="/home/luohang/PyLearn"#本文件所在路径
os.chdir(CURRENT_PATH)#改变当前路径

#存储图像名称的list
img_lst=[]
#读取图片名列表
with open('filesAdobe.txt', 'r') as f:
    for line in f.readlines():
        img_lst.append(line.rstrip("
"))#去掉换行符

with open('filesAdobeMIT.txt', 'r') as f:
    for line in f.readlines():
        img_lst.append(line.rstrip("
"))#去掉换行符

#urlretrieve 函数的回调函数，显示下载进度
def cbk(a,b,c):
    '''回调函数
    @a:已经下载的数据包数量
    @b:数据块的大小
    @c:远程文件的大小
    '''
    per=100.0*a*b/c
    if per>100:
        per=100
    #在终端更新进度
    sys.stdout.write("progress: %.2f%%   
" % (per))
    sys.stdout.flush()

#根据文件的url下载图片
for i in img_lst:
    URL='https://data.csail.mit.edu/graphics/fivek/img/tiff16_c/'+i+'.tif'#下载由C所调整的图像(可根据需要下载其它的四类图像)
    print('Downloading '+i+':')
    urlretrieve(URL, '/media/luohang/软件/FiveK_C/'+i+'.tif', cbk)#将所获取的图片存储到本地的地址内

运行结果如下：