大数据练习数据接口

 

除了分享和讨论经典的数据挖掘和机器学习的算法,为了大家能更好的了解并实践这些算法,DMC特意为大家搜寻了一些大数据的数据源连接。

由于各个网站对于数据使用都有明确且严格的声明,我们不便在未经各网站许可的情况下私自传播数据,所以这里仅提供各数据源的网址,请大家自行登陆到各网站上提取自己所需的数据,并按各网站的数据使用声明使用数据。

数据源友情链接:​

  • 政府&机构数据
  1. 美国政府开源数据库:http://www.data.gov/
  2. 英国政府开源数据库:http://data.gov.uk/
  3. 世界银行数据库:http://www.worldbank.org/
  4. 美国气候数据库:http://www.ncdc.noaa.gov/
  5. 美国交通部数据库:http://www.rita.dot.gov/bts/data_and_statistics/index.html
  • 开源社区数据集
  1. Machine Learning Data: http://mldata.org/repository/data/
  2. UCI: http://archive.ics.uci.edu/ml/
  3. Co-Clustering: https://coclustering.hds.utc.fr/doku.php?id=en:start
  4. R Dataset:http://www.stats4stem.org/data-sets.html
  5. Google开源数据平台:http://www.reddit.com/r/bigquery/wiki/datasets
  • 商业数据平台
  1. 数据堂:http://datatang.com/
  2. Wind: http://114.80.154.45/University/ElitePlan.html
  • 竞赛&会议数据
  1. Kaggle:https://www.kaggle.com/
  2. DataCastle: http://www.pkbigdata.com/
  3. KDD: http://www.kdd.org/
  4. Statistical computing&Statistical Graphics: http://stat-computing.org/dataexpo/
  • 其他
    1. 基因数据:http://aws.amazon.com/cn/1000genomes/
    2. Cancer Program Dataset: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
    3. 电影评分数据集:http://grouplens.org/datasets/movielens/
    4. NCBI :http://www.ncbi.nlm.nih.gov/
    5. Data Source on Web:
          http://mran.revolutionanalytics.com/documents/data/#machinelearning
    6. Mahout数据集:https://mahout.apache.org/users/basics/collections.html
原文地址:https://www.cnblogs.com/hd-zg/p/5177575.html