百度深圳一面2016-3-22

1.介绍一下自己

2.详细介绍项目2,具体到实验数据值

3.项目里爬了几个网站,用了多少数据,为什么

   爬了两个网站,用了一个,因为两个网站很多数据都是相同的,没考虑到不同的数据交集

4.项目1的具体内容

5.自然语言处理的工具,应用场景

  斯坦福、中科院、语言云。做文档摘要,用到相似度。。。做事件抽取,用到隐马尔科夫模型,抽取句子中的主要时间地点等主要元素(下次讲文本和图像相关性研究)

6.了解多线程吗

   不了解

7.java有什么数据结构

   list、arraylist、hashmap、hashtable、hashset

8.hashmap、hashtable区别

  主要是在多线程里面的区别、后者更安全。前者更快,允许null

9.java如何跳出多重循环

  break label

10.知道其他比较先进的机器学习算法吗

  不知道

11.讲一下knn(我觉得他想问kmeans)

原文地址:https://www.cnblogs.com/yujianshiguang/p/5306664.html