在讨论的第一部分中,我介绍了模型债务的基本概念,以此作为衡量单个模型和AI程序总体有效性的一种方法。在第二部分中,我将通过一个简短的示例来说明如何在实践中计算模型债务。
计算模型生产债务和模型价值损失需要以下输入:
目标生产天数(TPD),是从数据科学团队将其发布到生产开始到模型在其整个生命周期中要生产的天数的计数。评估TPD的关键因素包括:
•“加载锁定”(LTL)时间,这是数据科学团队将模型视为“准备部署”与首次在生产中部署模型之间的预期时间。锁定加载时间越短,模型对业务的贡献就越快。
实际的锁定加载时间将取决于ModelOps流程在企业AI架构师定义的生命周期步骤中移动模型的效率,包括技术检查(例如,安全扫描,性能验证等),治理要求(例如,法规遵从性,可解释性报告等)和业务考虑因素(例如,关于KPI的协议,部门签字等)。
模型的目标刷新率(TRR),它确定两次模型刷新之间的理想时间。每个模型都有刷新节奏,与模型目标刷新率的任何偏差都会降低模型的性能。
对于许多模型,关注点正在迅速刷新,以跟上用于训练模型的数据与当前现实或“运行状况”之间的差异。例如,信用卡客户获取模型仅在四分之一后就可能损失其价值的20%至30%或更多,而保险定价模型在短短30天内可能损失其价值的30%。但是,过于频繁地刷新模型也会降低模型性能。关键是要确保刷新按照数据科学团队和企业AI架构师同意的生命周期进行。
•实际生产天数,表示模型部署和运行期间任何TPD的一部分。
•降级因子,是由于缺少目标刷新率而导致的模型性能下降。对于根据目标时间表更新的模型,这表示为每日功效相对于目标功效的百分比下降。
•模型每日价值,这是模型每天或每周的预期价值。例如,度量可以是每天收入,基于模型输出所依赖的业务决策,无需人工干预即可处理的欺诈案件或客户服务案件。价值的短期度量标准(例如,收入或储蓄/天)对于花费大量时间才能到期的模型(例如金融服务中的某些类型的模型)可能没有意义。对于这些类型的模型,需要对价值进行更复杂的评估,这将在下一篇文章中介绍。
定义好这些参数后,我们就可以开始评估模型债务了。首先,为模型的整个生命周期定义目标生产方案,以建立与实际性能进行比较的基准。然后,在生产中连续监视模型,并使用结果计算瞬时和趋势模型生产债务和模型价值损失。
假设数据科学团队开发了一种用于检测欺诈性保险索赔的模型。经过测试数据的训练后,该模型证明了能够以与人类调查员相同的准确性检测欺诈行为,从而实现了全自动索赔处理并每天为企业节省100,000美元。假设目标模型锁定加载时间为五天,目标刷新率为每五天,并且在目标刷新周期之后的每一天,模型的价值下降2.5%。在“理想”情况下,模型在发布后的第五天进行部署,然后每隔五天刷新一次,该模型将在60天的时间内提供每天100,000美元的价值,为期55天,共计550万美元。值。
现在,让我们考虑一种情况,其中ModelOps处理失败,并且实际结果偏离理想状态。组织效率低下会导致模型的初始部署延迟15天,并且其他因素会使刷新率从5天增加到15天。影响如下:
•根据目标生产情况,该模型应该在第五天进入生产,但要到第20天才部署,因此该模型的生产债务在第五天到第20天之间每天累积累积为100%。