What I learn from MCM
之前太小看数据科学家这行的深度了,在面对一堆沆赃的数据面前,执行一套什么样的标准化流程是我们应该从这次MCM中学到最重要的事情。
在我看来,数据预处理,即从一大堆数据中提取最后对我们有用的table出来的本领尤为重要,因为往往现实的数据存在着缺失、异常、错误等等等,如何detect到这些问题是一个不小的难点,同时,如何在剔除掉异常点后,对每个数据做什么变化也值得人思考,或许也可以通过gird search来解决;
这次的MCM中,最深刻的记忆还是加深了fitting任务的全流程,最关键的就在于使用进行GirdSearchCV。 是衡量拟合度的scale量,是一个非常好的fitting评价指标,越接近1越说明fitting良好。
同时也也了解到了Grid Search和Random Search 的hyperparameter optimization,hyperparameter的重要性也曾经在SVM的一次任务中被教育了;hyperparameter因为无法在训练过程中习得,因此进行排列组合的尝试效果的gird search简单但是有效
通过什么样的方法去做数据扩增,什么样的方法去做特征选择,通过什么样的方法取衡量变量之间的关系,data science这条路上有太多太多要我去学习的了,。注重tatistics的基础,一定要在每日的学习中继续sharpen自己的统计思维
比赛内容是复杂繁重的,一个良好的流程就是一套良好的架构,但我却被乱的满地找牙
我被MCM教育了