根据最近的麦肯锡调查,只有16%的公司已经设法采取涉及超越试验阶段的深层学习技术的数据科学模式。其中一个原因可能是这些模型的纯粹复杂性。单一,大型复杂的模型可以很容易地压倒数据科学家概念化和构建。此外,这些模型通常很难有效地监督。

上述统计数据已经是一个令人信服的论据,可以让我们转向不那么复杂的数据科学模型。但如果这还不够,我们列出了以下5个原因,解释为什么数据科学应该采用更简单的模型。

  1. 可靠性

大型数据科学项目可以分解为可以联合或堆叠的子模型。然后,公司可以进行天花板分析,以确定最强大和最弱的模型,并确定模型精度需要改进的位置。这种方法非常可靠,并确保数据科学团队可以有效地隔离并修复堆栈的最薄弱部分。

  1. 问责制

简单、有效的知识转移对于构建和维护模型的数据科学家以及利用模型输出的业务方面的利益相关者至关重要。当使用简单的模型时,如果团队成员发生了变化或团队中有新的添加,就很容易指定和转移所有权。

  1. 可解释性

将源自数据科学模式的见解传达给技术,产品和业务团队是数据科学家角色的中央部分。使用简单模型的组合时,此作业是指数级的。

此外,更容易确定在数据收集和细化中需要投资的资源在哪里,为进一步投资于模型构建创建清晰的路线图,并分配内部资源以根据模型输出的结果进行操作。

  1. 可持续性

使用多种简单模型使监控和维护模型性能显着更轻松。另一个好处是,如果查询中断或模型的一部分需要再培训,则其他模型可以继续生产业务输出。

  1. 执行权限

在模型的简单性和它的透明性之间有直接的关联。模型越透明,关键涉众就越有可能根据其结果采取行动,因为他们将对其范围和输出有良好定义的理解。

有关这些步骤以及为什么简单模型在解决复杂问题时如此有效的更多信息,请查看最近的这篇文章《福布斯》文章