专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
国家数据局  ·  数据标注优秀案例集之三十二 | ... ·  19 小时前  
CDA数据分析师  ·  【反焦虑法则】当我不再较劲这 5 ... ·  4 天前  
51好读  ›  专栏  ›  AI前线

千锤万凿出深山:且谈特征工程最佳实践

AI前线  · 公众号  · 大数据  · 2017-08-03 17:35

正文

请到「今天看啥」查看全文


  • 最后,我们认为 特征选择或者主成分分析(PCA) 并不属于特征工程。这些步骤同样归属于交叉验证循环。

  • 再次强调,这些只是我们给出的分类意见。我们接受其他数据科学家对此提出的质疑,毕竟特征工程本身就属于一个开放性概念。

    免责声明到此结束,下面让我们进一步探讨与之相关的最佳实践与启发性结论。

    指标变量

    特征工程的第一种类型是利用指标变量提取关键信息。

    现在,有些朋友可能会问,“好的算法不是应该自行学习关键信息吗?”

    这个嘛,情况并非总是如此,具体取决于你所拥有的数据量以及竞争信号的强度。你可以通过预先突出重要内容帮助算法对其给予“关注”。

    • 来自阈值的指标变量: 我们假设你正在研究美国消费者对于酒精饮料的偏好,而当前数据集包含年龄特征 age 。您可以创建一个指标变量 age >= 21 以区分达到合法饮酒年龄的受试者。

    • 来自多种特征的指标变量: 假设你正在预测房地产价格,并且已经掌握了 n_bedrooms n_bathrooms 两项特征。如果拥有两卧两卫的房产在出租时拥有溢价性,你就可以创建一项指标变量对其进行标记。

    • 针对特殊事件的指标变量: 假设你正在为电子商务网站的每周销售情况建模。你可以为黑色星期五与圣诞节那两周分别创建两项指标变量。

    • 类组指标变量: 假设你正在分析网站转换率,而当前数据集包含 traffic_source 这一分类特征。你可以通过标记“ Facebook 广告 ”或者“ 谷歌广告 ”为 paid_traffic 创建指标变量。

    交互特征

    第二种特征工程类型主要是指突出两项或者多项特征之间的交互。

    你是否听说过“一加一大于二”这种说法?事实上,一部分特征组合起来确实能够较单一特征带来更多信息。

    具体来讲,我们可以对多项特征进行加和、减差、乘积或者除商后再寻找其中的模式。

    • 两项特征加和: 我们假设你希望根据初步销售数据预测收入情况。你已经拥有 sales_blue_pens sales_black_pens 两项特征。如果你只关注总体 sales_pens ,那就可以将二者相加。

    • 两项特征之差: 假设你已经拥有 house_built_date







    请到「今天看啥」查看全文