数据科学的希波克拉底誓言我们将满足于更多的数据素养

我发誓Hypatia，Lovelace，图灵，费舍尔(和/或贝叶斯)，以及所有统计学家和数据科学家，让他们成为我的见证人，我将根据我的能力和判断，执行这一誓言和这个契约。

这可能是数学家和数据科学家的“希波克拉底誓言”的第一行吗?伦敦大学学院城市数学副教授Hannah Fry认为，数学家和数据科学家需要这样的誓言，就像医生只是为了病人的最佳利益而发誓。

“在医学方面，你从一开始就学习道德。在数学方面，它充其量只是一个例子。它必须从第一天开始，并且在你采取的每一步中始终处于思想的最前沿，“弗莱争辩道。

但真正需要希波克拉底誓言的科技版吗?在医学上，这些誓言在不同的机构之间有所不同，并且在其近2500年的历史中有了很大的发展。事实上，关于誓言是否仍然与执业医生相关，尤其是因为它是法律，而不是一套古希腊原则，他们必须最终遵守这些原则。

数据科学如何达到道德承诺被认为必要的程度?当然，有许多算法会造成伤害 -例如，量刑算法已被证明不成比例地建议低收入和少数民族被送进监狱。

类似的危机导致了以前提出的道德承诺。在2008年全球金融危机之后，金融工程师伊曼纽尔·德曼(Emanuel Derman)和保罗威尔莫特(Paul Wilmott)的一份宣言恳请经济建模者发誓不要“让使用我模型的人对其准确性给予误报。相反，我会明确其假设和疏忽。“

正如偏见可以像孩子一样学习，这些算法的偏见是他们训练的结果。这些算法的一个共同特征是使用黑盒(通常是专有的)算法，其中许多算法使用统计偏差数据进行训练。

就刑事司法而言，该算法的不公正结果源于这样一个事实，即在历史上，少数群体在监狱人口中的比例过高(很可能是由于长期存在的人类偏见)。因此，该偏差被复制并且可能被算法加剧。

机器学习算法是针对数据进行训练的，并且只能期望产生限于这些数据的预测。偏见，偏见。

承诺，承诺

采取道德承诺是否有助于这些算法的设计者?或许，但对统计偏差的更多认识可能就足够了。抽样中无偏见的问题长期以来一直是统计学的基石，这些主题的培训可能导致设计者退后一步并质疑其预测的有效性。

Fry自己过去一直在评论这个问题，并表示人们必须“关注你对数据的偏见如何能够最终反馈到你正在进行的分析”。

但是，尽管无偏见的代表性问题在统计数据中并不新鲜，但在争议领域越来越多地使用高性能算法使“数据素养”变得比以往更加重要。

问题的一部分是机器学习算法易于应用，使得数据素养不再是数学和计算机科学家特有的，而是广大公众。广泛的基本统计和数据素养将有助于提高对统计偏差问题的认识，并且是防止不当使用算法的第一步。