第一次个人作业

1.学习小结：通过这段时间的机器学习，意识到自己概率知识和线代知识的薄弱，机器学习中有很多的推导都需要良好的概率知识基础，所以接下来要好好复习之前的概率论，把基础打牢，要不听那些推导的时候真的云里雾里，同时我发现这门课难度很高，除了复杂的计算，还有很多不好理解的地方难以消化，常常发现听完一节课只有抽象的印象而没有深入的理解，所以还需要花更多的时间去学习和理解。
2.前沿和发展：自然语言处理处理中预训练模型PTMs
随着深度学习的发展，各种神经网络被广泛用于解决自然语言处理(NLP)任务，如卷积神经网络(convolutional neural networks, CNNs)[75,80,45]、递归神经网络(neural networks, RNNs)[160, 100]、基于图的神经网络(graphbased neural network, GNNs)[146, 161, 111]和注意力机制[6,171]等。这些神经模型的优点之一是能够缓解特征工程问题。非神经NLP方法通常严重依赖于离散的手工特征，而神经方法通常使用低维和稠密的向量(又称分布式表示)隐式地表示语言的语法或语义特征。这些表示是在特定的NLP任务中学习的。因此，神经方法使人们可以很容易地开发各种NLP系统。

尽管神经模型在NLP任务中取得了成功，但与计算机视觉(CV)领域相比，性能改进可能不那么显著。主要原因是，当前用于大多数监督的NLP任务的数据集相当小(机器翻译除外)。深度神经网络通常具有大量的参数，使其对这些小的训练数据过度拟合，在实际应用中泛化效果不佳。因此，许多NLP任务的早期神经模型相对较浅，通常只包含1 ~ 3个神经层。

最近大量的研究表明，在大型语料库上的预训练模型(PTMs)可以学习通用语言表示，这对后续的NLP任务是有益的，可以避免从零开始训练新模型。随着计算能力的发展，深层模型(即随着训练技能的不断提高，PTMs的体系结构由浅向深推进。第一代PTM的目标是学习好的词嵌入。由于下游任务不再需要这些模型本身，它们在计算效率方面通常非常肤浅，如Skip-Gram[116]和GloVe[120]。虽然这些预训练的嵌入可以捕获单词的语义含义，但它们是上下文无关的，不能捕获文本的高级概念，如语法结构、语义角色、回指等。第二代PTMs主要学习上下文词嵌入，如CoVe[113]、ELMo[122]、OpenAI GPT[130]、BERT[32]等。这些学习过的编码器仍然需要在上下文中通过下游任务来表示单词。此外，还提出了各种预训练的任务，以学习PTMs的不同目的。

国家发展的先进和不足：随着国家的重视，现在的机器学习和人工智能十分的热，侧面证明我们国家在这方面还比较薄弱，不过现在在无人驾驶方面做出了一些突破，但还有很多问题还没有得到解决，大概从网上得到这些信息。