美年健康 AI 大赛初赛小结

2018-05-07

天池美年的初赛逐渐告一段落，作为一个之前几乎没有任何实际机器实践经验的选手，也勉强进了复赛（b 榜的分 0.0391 ）。在其中也学到了很多东西，有些部分留到后面有时间再总结，这里主要大致梳理一下初赛的心路历程。

非常直接的原因是找实习的时候发现必须得有项目经历，然而专业根本和机器学习没关系。在 kaggle 上看了几个入门赛，但是不如实际比赛来得有驱动力，再加上刚好美年的比赛时间很合适。

自认为不太好的编程能力，会点 python，写过 C++ 算法，甚至还捣鼓过几个 Android 应用，~~学而不精的典范~~。
学过 Coursera 的 ML 课，看过《统计学习方法》，~~一问细节就懵逼~~。
良好的英文检索能力（我觉得这点还是挺重要的，知道点术语和自己想要实现的效果，剩下的谷歌能教会我就完全 OJBK）。
只听说过 XGBoost，完全没听说过 LightGBM，不过还是知道这样的比赛大多数都用的 GBDT 类的模型。Pandas？没听说过，numpy 都不 6。sklearn 还是用过一丢丢的（后来发现把它的文档整个通读一遍就知道基本的套路了，简直 excited）

然后就开始愉快地写代码了！不试试怎么知道自己不行呢！

对于一个像我一样的初学者来说，面对一个题目一定是一脸茫然不知所措的。面对这种情况，两种方法是不推荐的：

第一种是因为做比赛其实一开始并不需要很全面的知识，像这个比赛，随便找个 kaggle 上类似比赛第一的解决方案看就行了。第二种，虽然比赛有很好的交流的机会，但是自己没有产出的话还是不要麻烦别人比较好，毕竟不是一个层次内的交流……

具体到这个比赛，我先看了几个 kaggle Titanic 的 kernels。有耐心的可以读一读这个，一整个 workflow 给你整得明明白白的。

另外调研了一下 LightGBM，感觉大家用得挺多的，那么我用它也肯定不这么会错咯。恰好 LightGBM 给了几个不错的 Examples，上手写代码的难度也大大降低了。

第二步其实直接可以写了，根本没想什么特征提取啊、模型选择、参数优化（因为我都不会），所以就先拿 sklearn 写了一个随机森林的方法。这里要再赞美一下 sklearn 的文档和 API 写得真的好（主要还是因为它简单）。

用了 100 多个缺失值少于 50000 的数值特征（文字特征不会处理，到现在还是人工分类，没用 NLP，以及这里是个大坑），大概最后结果在 0.037 左右。虽然成绩完全不行，但是还是给了我很大的信心，起码我是可以做出结果来的。

由于数据集的数据类型很复杂，数值列也基本不知道含义，取值范围也很多样，所以一开始就决定用树模型来做。特征决定了得分的上限，所以大部分时间基本都花在了处理数据、得到新的特征上去。后来证明这样是可行的。

0.0320+ 阶段：只用 100 多个数值特征，LightGBM 用文档推荐的参数，大概得分在这里。
0.0315 左右阶段：用 log1p 调整了训练集输出的分布。这个是第一个卡住的地方。算法也是比较不稳定（特征太少），产生测试集和验证集的 random_state 不同，结果变化挺大，但是线上的成绩是不会提高的。
0.0310 阶段：手头还有好多的文字特征没用，取了几个数据量大的列，正则匹配分类，加了 5、6 个分类特征。虽然还是不稳定，但是线上成绩还是明显提高了（这又是卡住的地方）。
0.0300+ 阶段：看了技术圈大佬的分享，发现自己的数值特征用少了，就放宽了缺失值的范围，可以说是大步飞跃，线上线下的成绩稳定、也很同步。之前估计进复赛起码得 0.0300 吧，所以信心还是增强了不少。
0.0290+ 阶段：这时候离换数据只剩几天了，所以基本上就和队友在加文字特征，还是正则匹配分类。期间咨询了学医的同学的意见，选了一些重要的文字特征先处理了，效果还是很明显的。

其中还是遇到一些其他的坎坷，比如：

总体来说地话，学了很多东西，还需要学的东西更多。在过程中能够体会几点：

对于复赛，自己的理解，主要要发力还是处理文字特征。不过我始终认为 NLP 在这个问题上称作一个工具更合适，能帮助非专业的我们处理复杂的病情描述，实际效果怎么样，还是咨询一下专业人士比较好。另外一部分需要准备的就是模型调参和模型融合了，这个倒比前面的特征处理要稍微简单、有方向一点。

总之，继续加油吧！

黄石的时空回环