【Method】Google机器学习最佳实践
https://developers.google.cn/machine-learning/guides/rules-of-ml/
在进行机器学习之前
第 1 条规则:不要害怕发布未采用机器学习技术的产品。
第 2 条规则:首先设计并实现指标。
第 3 条规则:选择机器学习技术而非复杂的启发式算法。
机器学习第一阶段:您的第一个管道
第 4 条规则:确保第一个模型简单易用,并正确实施基础架构。
第 5 条规则:撇开机器学习,单独测试基础架构。
第 6 条规则:复制管道时注意丢弃的数据。
第 7 条规则:将启发式算法转变为特征或在外部处理它们。
监控
第 8 条规则:了解您的系统对新鲜程度的要求。
第 9 条规则:先检测问题,然后再导出模型。
第 10 条规则:注意隐藏的问题。
第 11 条规则:提供特征列的所有者及相关文档。
您的第一个目标
第 12 条规则:选择直接优化哪个目标时,不要想太多。
第 13 条规则:为您的第一个目标选择一个可观察且可归因的简单指标。
第 14 条规则:从可解释的模型着手可更轻松地进行调试。
第 15 条规则:在策略层中区分垃圾内容过滤和质量排名。
机器学习第二阶段:特征工程
第 16 条规则:制定发布和迭代模型计划。
第 17 条规则:从可直接观察和报告的特征(而不是经过学习的特征)着手。
第 18 条规则:探索可跨情境泛化的内容的特征。
第 19 条规则:尽可能使用非常具体的特征。
第 20 条规则:组合和修改现有特征,以便以简单易懂的方式创建新特征。
第 21 条规则:您可以在线性模型中学习的特征权重数目与您拥有的数据量大致成正比。
第 22 条规则:清理不再使用的特征。
对系统的人工分析
第 23 条规则:您不是典型的最终用户。
第 24 条规则:衡量模型间的差异。
第 25 条规则:选择模型时,实用效果比预测能力更重要。
第 26 条规则:在衡量的错误中寻找规律,并创建新特征。
第 27 条规则:尝试量化观察到的异常行为。
第 28 条规则:请注意,短期行为相同并不意味着长期行为也相同。
训练-应用偏差
第 29 条规则:确保训练效果和应用效果一样的最佳方法是,保存在应用时使用的特征集,然后将这些特征通过管道传输到日志,以便在训练时使用。
第 30 条规则:按重要性对采样数据加权,不要随意丢弃它们!
第 31 条规则:如果您在训练和应用期间关联表格中的数据,请注意,表格中的数据可能会变化。
第 32 条规则:尽可能在训练管道和应用管道间重复使用代码。
第 33 条规则:如果您根据 1 月 5 日之前的数据生成模型,则根据 1 月 6 日及之后的数据测试模型。
第 34 条规则:在有关过滤的二元分类(例如,垃圾邮件检测或确定有趣的电子邮件)中,在短期内小小牺牲一下效果,以获得非常纯净的数据。
第 35 条规则:注意排名问题中存在的固有偏差。
第 36 条规则:通过位置特征避免出现反馈环。
第 37 条规则:测量训练/应用偏差。
机器学习第三阶段:缓慢增长、优化细化和复杂模型
第 38 条规则:如果目标不协调,并成为问题,就不要在新特征上浪费时间。
第 39 条规则:发布决策代表的是长期产品目标。
第 40 条规则:保证集成学习简单化。
第 41 条规则:效果达到平稳后,寻找与现有信号有质的差别的新信息源并添加进来,而不是优化现有信号。
第 42 条规则:不要期望多样性、个性化或相关性与热门程度之间的联系有您认为的那样密切。
第 43 条规则:在不同的产品中,您的好友基本保持不变,但您的兴趣并非如此。