鱼佬数据竞赛直播

主要内容:

1.为什么要参加数据挖掘竞赛?能带来什么?

2.参加竞赛需要哪些基础知识和技能?

3.如何选择适合自己的竞赛?

4.竞赛中的几个主要模块

5.竞赛过程中最重要的事情

6.好的竞赛总结比竞赛过程更重要

7.案例分享(天池“全国城市计算A挑战赛”)

1.为什么要参加数据挖掘竞赛?能带来什么?

 

 2.参加竞赛需要哪些基础知识和技能?

2.1理论知识掌握:评价指标、数据分析、特征工程、常用模型

推荐资料:

吴恩达机器学习课程                                (基础认识 )

周志华:机器学习                                                                (理论学习)

机器学习实战(Hands-on Machine Learning with Scikit-Learn and TensorFlow)              ( 应用实战)

2.2工具的掌握

语言的选择: Python 

可视化工具: Matplotlib、 Seaborn 

数据处理工具: Pandas、 NumPy 

机器学习库: Sklearn、 XGBoost、 LightGBM、 TensorFlow

推荐资料:

利用Python进行数据分析  涉及 NumPy、 pandas、 matplotlib   

机器学习实战  涉及 Sklearn、 TensorFlow   

XGBoost和 LightGBM通过比赛和博客来学习

3.如何选择适合自己的竞赛?

3.1竞赛平台

最推荐的两个主流平台——Kaggle和天池
(1)对于新手来说,Kaggle的优势在于开源分享的氛围,每个比赛在讨论区都有大量的针对此比赛的分享,包括
Baseline分享,EDA分享等。有些Baseline甚至可以直接进入赛事的Top1%。学习大佬的思路和代码能够少走很
多弯路,从而可以飞速地进步。Kaggle唯一的缺点就在于全英文,对于国内的同学来说,理解起来可能有些吃
力。
(2)天池是阿里巴巴旗下的机器学习平台,目前是国内最大的机器学习类竞赛网站。和Kaggle相比,开源分享的氛
围不是很强。但近期,天池推出了很多针对初学者的入门教程和视频,包括算法讲解和竞赛套路讲解。从天
池入门算法竞赛也不失为一个好的选择。

 3.2竞赛分类

  • 从领域归属划分:包含搜索相关性,广告点击率预估,销量预估,贷款违约判定,癌症检测等。
  • 从任务目标划分:包含回归,分类(二分类,多分类,多标签),排序,混合体(分类+回归)等。
  • 按领域归属划分:表格数据(搜索推荐、时间序列)自然语言处理(文本分类、情感分析)

3.3硬件要求:自己的机器能够支持并完成这场比赛,内存、显卡等,或者借助云服务器。    根据比赛类型,数据大小来确定。     

3.4与自己专业的相关性:研究方向(如NLP,CV等)

4.竞赛中的几个主要模块

 4.1问题建模

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.竞赛过程中最重要的事情

5.1海量数据分析(对于数据的理解,业务的分析能力提升

5.2不断尝试新的idea(相关论文或自己的想法)

5.3多向优秀的选手学习提问

6.好的竞赛总结比竞赛过程更重要

6.1赛后及时总结:自己的整体思路、关键代码、自己的不足、还需要做哪些尝试。

6.2学习优秀方案:不仅局限于自己的思维方式,其他人是如何思考的,哪里是可以借鉴的,进行对比发现自己的不足。

原文地址:https://www.cnblogs.com/HuangYJ/p/11727737.html