专栏名称: 量化投资与机器学习
公众号主要介绍关于量化投资和机器学习的知识和应用。通过研报,论坛,博客,程序等途径全面的为大家带来知识食粮。版块语言分为:Python、Matlab、R,涉及领域有:量化投资、机器学习、深度学习、综合应用、干货分享等。
目录
相关文章推荐
新机器视觉  ·  计算机视觉中的双目立体视觉和体积度量 ·  昨天  
AI产品阿颖  ·  Cursor核心成员访谈:我们对AI编程的几 ... ·  昨天  
爱可可-爱生活  ·  【[365星]Icepi ... ·  昨天  
51好读  ›  专栏  ›  量化投资与机器学习

Two Sigma:直觉在机器学习中的重要性!

量化投资与机器学习  · 公众号  · AI  · 2024-07-03 17:21

主要观点总结

本文主要讨论了在使用机器学习模型时,人类的直觉和判断的重要性。文章强调了在选择数据、理解任务、建立模型、以及模型应用过程中,人类的角色是至关重要的。文章还提到了监督模型与其他机器学习方法的优势,以及如何在数据局限性周围找到创造性解决方案的方法。此外,文章还探讨了模型的预测可能存在的偏差,以及在模型预测表现异常好或坏时应该持怀疑态度并进行深入分析。最后,文章以一个医疗设备制造商的乳腺癌检测模型为例,说明了在使用机器学习模型时,对训练数据的特殊性和用例的理解的重要性。

关键观点总结

关键观点1: 机器学习模型的有效性不仅依赖于算法,而且严重依赖于人类的直觉和判断。

在选择数据、理解任务、建立模型、以及模型应用过程中,人类的角色是至关重要的。

关键观点2: 监督模型与其他机器学方法相比具有巨大的优势,但也需要正确评估模型的性能。

可以通过一些基本事实来客观地评估模型的性能,这有助于认识到失败并找到解决方案。

关键观点3: 在数据局限性周围找到创造性解决方案是必要的。

有时候,人类的直觉可以在数据的固有局限性周围找到创造性的解决方案。

关键观点4: 模型的预测可能存在偏差。

模型倾向于做出“简单”的预测,这可能引入偏差。为了确保模型的公正性,数据科学家必须警惕并消除数据的偏差。

关键观点5: 在模型预测表现异常好或坏时应该持怀疑态度并进行深入分析。

研究人员必须以一种计算机无法做到的方式持怀疑态度,以确保没有意外未来函数潜入数据集。

关键观点6: 对训练数据的特殊性和用例的理解对于有效地使用机器学习模型至关重要。

以医疗设备制造商的乳腺癌检测模型为例,只有对数据和用例有深入了解的人才能做出有效的判断。


正文

请到「今天看啥」查看全文


)的假设中去研究,而在现实世界中往往不会遵守这些假设。

在这种情况下,最好的做法是意识到机器学习可能不是唯一解决问题的办法,可以寻找其他解决方案。

当一个问题 可能 不是机器学习问题

有时候,世界上所有的数据都是不够的!

在某些情况下,没有可供学习的适当数据。选举、自然灾害和其他特殊事件只是过去的例子,未必能为未来提供准确的参考。在这种情况下,类似的事件以前从未发生过,预测此类事件比较好的方法是由人类专家利用大量的经验和直觉来完成。

数据集的有效大小比你想象的要小得多!

例如,在2017-18年冬季,纽约市住房管理局报告称,其约143.5万套公寓中,多达80%的公寓出现了供暖中断。考虑到每间公寓都代表了一系列相关信息(租户人口统计、使用模式等),这似乎是构建一个可以预测供暖中断发生的模型的完美场景。
事实证明,停电实际上不会发生在公寓层面。相反,大约100个老化的锅炉为整个建筑供暖,所以要学习的数据集的有效大小不是1435000行,而是100行。
你的数据里没有信号
例如,研究人员试图创建一种早期预警指标,预测非洲农村等主要农业地区的作物损失。在一次 尝试中,对 Malawi 进行了为期一年的卫星图像和地面调查 该国面积小,年度气候条件相对均匀,因此几乎不可能建立一个可靠的局部预测模型。
在其他情况下,限制因素不在于可用特征的可变性或相关性,而是一个简单的事实,即任务本身就很难预测。
对于金融市场的走势/波动来说,情况也是这样。一 个好的模型所需的数据量、模型可用特征数量和数据中的信号量之间存在一个内在联系。有了强信号,就可以在具有相对较大特征集的少数实例上构建模型。但当信号较弱时,要么需要更多的数据,要么必须大幅减少特征的数量。
问题是因果关系,你的数据可能不是
当一个预测可能包括你决定采取行动的影响时,谨慎也是至关重要的。在那一刻,你正在跨越相关性和因果关系之间的鸿沟。
例如,预测 earnings surprises :无论研究人员预测或做什么,都不太可能影响意外发生的可能性。但建立一个交易执行模型可能是一个非常不同的故事,因为一笔足够大的交易本身可能会影响金融工具的价格。在给定的市场状态下,预测哪种策略可能成本最低是一个因果关系问题。有时,准确预测效果是可能的,有时则不然。
还有一种情况是,你的模型不太可能比历史平均水平做得更好:比如纽约的交通事故(模型可能“解释”,但不能预测)。

需要找钉子的时候,你只有一把锤子







请到「今天看啥」查看全文