了解大数据的特点、来源与数据呈现方式

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639

1.浏览2019春节各种大数据分析报告,例如:

2.分析所采用数据的来源有哪些?

来源于交易数据,移动通信数据,人为数据,机器和传感器数据,互联网上的开放数据等等。

3.大数据的呈现方式有哪些?

①、面积&尺寸可视化对同一类图形(例如柱状、圆环和蜘蛛图等)的长度、高度或面积加以区别,来清晰的表达不同指标对应的指标值之间的对比。

②、颜色可视化,通过颜色的深浅来表达指标值的强弱和大小,是数据可视化设计的常用方法,用户一眼看上去便可整体的看出哪一部分指标的数据值更突出。

③、图形可视化在我们设计指标及数据时,使用有对应实际含义的图形来结合呈现,会使数据图表更加生动的被展现,更便于用户理解图表要表达的主题。

④、地域空间可视化当指标数据要表达的主题跟地域有关联时,我们一般会选择用地图为大背景。

⑤、概念可视化通过将抽象的指标数据转换成我们熟悉的容易感知的数据时,用户便更容易理解图形要表达的意义。

4.大数据的特点是什么?对思维方式有何影响?

特点:海量性;高速性;易变性;多样性;价值型。

对思维方式的影响:

①全样而非抽样

谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。

 

②效率而非精确

精确的计算是以时间消耗为代价的。在小数据时代,追求精确是为了避免放大的偏差而不得已为之(设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差)
但在样本=总体的大数据时代(有多少偏差就是多少偏差而不会被放大),快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
 

③相关而非因果

舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。

5.准备、安装python编程环境

1、安装Python环境

2、安装PyCharm软件

6.简单的输入输出编程练习

设计完成一个Mad Libs游戏:

1).创造一个让人欢乐的有趣的故事;

2).提示伙伴输入相应类别的词;

3).将故事完整地输出。

 

原文地址:https://www.cnblogs.com/StuCzc/p/10456610.html