编者按:红点创投的投资人TOMASZTUNGUZ日前撰文,讨论了概率论与机器学习的关系,提出了管理用户信任的建议。他认为,设置合适的用户对系统容量的期望至关重要,要判断那种统计错误类型(这里的“错误类型”是统计术语,包括一类错误和二类错误)。

失去信任要比失去软件的用户或买家来得更快,比如这个软件没有保存我的数据、数据库损坏、网站安全系数频繁下降。数据完整性是每个公司存储数据所面临的挑战。机器学习SaaS初创企业面临着另一种信任风险——一种以概率引入的风险。当年,内森预测2008年巴拉克·奥巴马(BarackObama)的成功选举,每个地区的准确率几乎达到100%时,概率论可谓是大放异彩。

真实世界与可能的预测一致。然而八年后的这次选举,概率没能预测对新总统的人选。在2008年和2016年的分析中,预测可能是正确的。2008年的成功预测使人们对数据更加信任,然而在2016年,结果却发生了变化,预测反倒不准了。

这种现象很自然。置信系数和2类错误许多机器学习系统也依赖概率。程序员将阈值编码到机器学习模型中,系统使用该阈值来决定概率是否可以得出结论,有时这被称置信系数。例如,该图像包含猫的最小概率、sacreblue 被翻译为“哦,我的天哪!”而不是sacreblue的概率 、高峰时间的范怀克的速度比从新泽西州到曼哈顿的带百汇要快的概率。

在计算机系统推荐之前,这些最小概率应该是多少?80%?90%?95%?增加概率和减少误报数量或类型1错误。这样您在搜索猫时,结果中出现猫鼬的数量就会更少。但是,过多的增加信任阈值会引起类型2错误。有可能系统断言图像不包含猫,但经过进一步的检查,你可以看到有一个有猫的图片。

如何管理这种风险机器学习SaaS公司必须找到平衡。让机器学习系统可以合理的宽松、适当的严格。