我发誓Hypatia,Lovelace,图灵,费舍尔(和/或贝叶斯),以及所有统计学家和数据科学家,让他们成为我的见证人,我将根据我的能力和判断,执行这一誓言和这个契约。
这可能是数学家和数据科学家的“希波克拉底誓言”的第一行吗?伦敦大学学院城市数学副教授Hannah Fry认为,数学家和数据科学家需要这样的誓言,就像医生只是为了病人的最佳利益而发誓。
“在医学方面,你从一开始就学习道德。在数学方面,它充其量只是一个例子。它必须从第一天开始,并且在你采取的每一步中始终处于思想的最前沿,“弗莱争辩道。
但真正需要希波克拉底誓言的科技版吗?在医学上,这些誓言在不同的机构之间有所不同,并且在其近2500年的历史中有了很大的发展。事实上,关于誓言是否仍然与执业医生相关,尤其是因为它是法律,而不是一套古希腊原则,他们必须最终遵守这些原则。
数据科学如何达到道德承诺被认为必要的程度?当然,有许多算法会造成伤害 -例如,量刑算法已被证明不成比例地建议低收入和少数民族被送进监狱。
类似的危机导致了以前提出的道德承诺。在2008年全球金融危机之后,金融工程师伊曼纽尔·德曼(Emanuel Derman)和保罗威尔莫特(Paul Wilmott)的一份宣言恳请经济建模者发誓不要“让使用我模型的人对其准确性给予误报。相反,我会明确其假设和疏忽。“
正如偏见可以像孩子一样学习,这些算法的偏见是他们训练的结果。这些算法的一个共同特征是使用黑盒(通常是专有的)算法,其中许多算法使用统计偏差数据进行训练。
就刑事司法而言,该算法的不公正结果源于这样一个事实,即在历史上,少数群体在监狱人口中的比例过高(很可能是由于长期存在的人类偏见)。因此,该偏差被复制并且可能被算法加剧。
机器学习算法是针对数据进行训练的,并且只能期望产生限于这些数据的预测。偏见,偏见。
承诺,承诺
采取道德承诺是否有助于这些算法的设计者?或许,但对统计偏差的更多认识可能就足够了。抽样中无偏见的问题长期以来一直是统计学的基石,这些主题的培训可能导致设计者退后一步并质疑其预测的有效性。
Fry自己过去一直在评论这个问题,并表示人们必须“关注你对数据的偏见如何能够最终反馈到你正在进行的分析”。
但是,尽管无偏见的代表性问题在统计数据中并不新鲜,但在争议领域越来越多地使用高性能算法使“数据素养”变得比以往更加重要。
问题的一部分是机器学习算法易于应用,使得数据素养不再是数学和计算机科学家特有的,而是广大公众。广泛的基本统计和数据素养将有助于提高对统计偏差问题的认识,并且是防止不当使用算法的第一步。