寒假学习日报（二）

　　今日把运行环境完善了一些，hadoop分布式还没有做，之后就去学习tensorflow了。

　　我下载的tensorflow版本是2.3.0，老师下发的视频演示的是1.0版本的，因此在写代码时要注意方法的调用，我查了一些资料得知2.0版本的tensorflow较于1.0版本改了很多东西，因此在使用1.0版本的方法时需要写下如下代码：

import tensorflow as tf
#此行代码不加会报TypeError错误，原因为已安装的tensorflow版本为2.3，下列实验代码对应的版本为1.几版本
tf.compat.v1.disable_eager_execution()

　　补上这个代码之后，后续的代码在使用方法时都需要补上【compat.v1.】如tf.Session()在1.0版本可用，而2.0版本已经没有这个方法了，因此在使用时应该这么写

tf.compat.v1.Session()

　　搞清楚版本差别之后，今日跟着视频学习了使用tensorflow实现简单的线性回归模型构造，下面给出代码和实现效果：

import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
#随机生成1000点，围绕直线：y=0.1x+0.3
tf.compat.v1.disable_eager_execution()
num_points=1000
vectors_set=[]
for i in range(num_points):
    x1=np.random.normal(0.0, 0.55)
    y1=x1*0.1+0.3+np.random.normal(0.0, 0.03)
    vectors_set.append([x1, y1])
#生成样本
x_data = [v[0] for v in vectors_set]
y_data = [v[1] for v in vectors_set]

plt.scatter(x_data,y_data,c='r')

#生成1维的W矩阵，取值是[-1,1]之间的随机数
W=tf.Variable(tf.compat.v1.random_uniform([1], -1.0, 1.0), name='W')
#生成1维的b矩阵，初始值是0
b=tf.Variable(tf.zeros([1]), name='b')
#经过计算得出预估值y
y = W*x_data+b

#以预估值y和实际值y_data之间的均方误差作为损失
loss=tf.reduce_mean(tf.square(y - y_data), name='loss')
#采用梯度下降法来优化参数
optimizer = tf.compat.v1.train.GradientDescentOptimizer(0.5)
#训练的过程就是最小化这个误差值
train=optimizer.minimize(loss, name='train')

sess=tf.compat.v1.Session()
init=tf.compat.v1.global_variables_initializer()
sess.run(init)
#输出初始化的W,b
print("W=", sess.run(W),"b=",sess.run(b),"loss=",sess.run(loss))
#执行20次训练
for step in range(20):
    sess.run(train)
    print("W=", sess.run(W),"b=",sess.run(b),"loss=",sess.run(loss))

plt.scatter(x_data,y_data,c='r')
plt.plot(x_data,sess.run(W)*x_data+sess.run(b))
plt.show()

　　可见训练出来的W和b越来越接近0.1和0.3。

　　在学习tensorflow的过程中，有些函数的使用与numpy类似，因此比较容易理解，后续需要训练更复杂的模型，因此需要一定的数学基础。

　　此外今日还看了一些Spark的概念，由于它可以在Hadoop文件系统中并行运行，由于分布式hadoop未能完全搭建，因此没有进行实践。

　　最后就是今天的一些疑难点，与tensorflow和spark无关，主要是在安装idea的时候出现了问题，总是出错，前前后后尝试了7-8次，最后成功安装了2019.3.3版本，同时将maven库路径之类的调整了一下，大部分时间也都浪费在了这里。

　　明日目标：hadoop分布式搭建，Spark安装并实践，tensorflow学习。