Coursera, Big Data 2, Modeling and Management Systems (week 1/2/3)

Introduction to data management 

整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis 等

What is data management?

  

Introduction to data model 

什么是data model?

三个aspects - Structure, Operations, Constrants

四个基本 data operation - selection(filtering, 选满足条件的row or index), projection(选一部分field or column), union(求并集), join(见下图)  

  

  

Constraints

types of contraints:

  

  

  

  

 Differenet kinds of data models

relational data model - DB

simi-structured data model : xml, json 等树结构

vector space model: 从text 和image 取数据. 除了讲vector model 还讲到了 similarity search

  TF - term frequency, term 出现的次数,是个绝对值

  IDF - inversed document frequency : log2(文档数n / term出现的次数 count), 比如下面出现的 单词new 的 IDF 是 log2(3/2)

  DF - 和 IDF 相反,就是 log2(term出现的次数  / count文档数n)

  

  tf-idf matrix 就是把 tf 和 idf 值 相乘得到的

   

    

  

  

Graph data model 

Graph data model 经常用来解决下面的问题

  

转载请注明出处 http://www.cnblogs.com/mashuai-191/
原文地址:https://www.cnblogs.com/mashuai-191/p/10102030.html