大数据与人工智能的伦理挑战

本文将回顾大数据和人工智能伦理研究的背景、意义和现状，着重从中立性、时效性、导向性、边界问题、隐私问题和责权问题六个方面介绍大数据于人工智能发展带来的具体伦理挑战，最后简述当前有效的应对策略并讨论未来开放性的政策和技术问题。

2016年，奥巴马政府发表了题为《为人工智能的未来做好准备》的报告[9]，强烈建议要评估人工智能技术和产品带来的风险；2017年，欧洲经济和社会委员发表了题为《大数据伦理——在欧盟政策背景下，实现大数据的经济利益与道德伦理之间的综合平衡》的报告，对大数据的伦理问题进行了概括，特别强调了数据采集和使用带来的安全和隐私问题；2018年，英国议会发表了《英国人工智能的准备、计划和能力》的报告[11]，呼吁政府为人工智能研发和应用设定伦理原则；美国电气与工程师协会、美国未来生命研究所等研究组织和微软、谷歌等科技公司也陆续发布了相关的研究报告。我国2017年发布的《新一代人工智能发展规划》中指出制定人工智能发展的伦理规范是促进人工智能发展的重要保证措施，2017年12月8日，中共中央政治局就实施国家大数据战略进行第二次集体学习，习近平主席主持学习并发表了讲话，在提出实施国家大数据战略加快建设数字中国要求的同时，特别强调了数据安全、数据隐私、数据确权、数据版权、数据治理政策储备和治理规则等与数据伦理相关的问题。与欧美等国相比，我国学界、业界和政府在大数据与人工智能伦理问题上系统性的深入研究还较少，目前尚未形成具有国际影响力的伦理研究报告和政策实施方案，与习近平主席提出的“要加强国际数据治理政策储备和治理规则研究，提出中国方案”这一要求尚有较大差距。

中立性

表面上客观的数据和理性的算法，也可以产生非中立性的结果。事实上，数据和算法导致的歧视往往更难发现也更难消除。数据和算法对中立性的破坏，可能来自三方面的原因：

一是采集数据或设计算法的相关人员蓄意为之；

即便数据是人类社会客观中立的记录，如果人类社会本身就存在偏见、歧视和不公平，那么相关数据自然也会带入我们社会的不公。例如，互联网求职的简历数据显示，在职场中身高和性别的歧视都非常严重[12]：平均身高越高，平均收入越高；在同等学历条件和行业背景下，女性要多工作5-10年才能获得和男性相当的薪水。显然，使用这类简历数据进行职位的推荐时，其结果必然自带歧视。

二是原始数据本身就存在偏见，因此该数据驱动的算法结果也会有偏见；

在万维网的标准文本语料库上进行训练，发现计算机可以“学会”沉淀在人类语言记录中隐含的偏见——既包括一些无关道德也无伤大雅的偏见，例如昆虫让我们联想到不愉快而花朵则常与欣愉的事情相伴，还包括一些严重的偏见，包括来自性别和种族的歧视[14]。实际上，有些我们人类自己都没有注意到的潜在的歧视，计算机也能通过机器学习捕捉到。这些数据上存在的偏见，会通过算法表现为带歧视的结果，这些结果可能进一步加大歧视，从而新的数据包含的偏见有可能被加剧，造成恶性循环。

三是所设计的算法会导致有偏见的结果。

在电商网站上，同一个品类下商品的价格差别巨大，例如都是灌开水的热水袋，在外观和功能差别不大的情况下，从十块钱到数千元都有。类似地，一支钢笔，从几元到几万元都有。如果某目标用户以前在电商网站收藏和购买的商品，在相关品类中价格排名都特别靠后，那么算法可能会在一个名为“价格敏感度”的特征维度上给该用户标上高分。于是乎，当该用户搜索一个关键词后，如果自己不做调整，可能从前到后翻十页，他看到的都是便宜货。尽管算法的初衷是提高该用户的点击率——这被认为对用户和商家都好——但是这事实上形成了同类商品展示对低收入消费者的歧视。试想如果在一个购物商场中部分人被告知因为收入过低不允许进入LV的店面，或者因为收入过低而要排队数小时才能入店，而高收入者有专享通道。这种歧视肯定是我们不能容忍的，而在互联网上，数据和算法带来的偏见与之类似但更为隐蔽。

高度发达的人工智能会充分考虑包括家庭、性别、民族、消费水平等等关于你的各种数据，给出“最适合你的选择”。于是，不同收入和不同家庭背景的人会抵达城市中不同的角落、下载不同的课程、规划不同的人生。在大数据的时代，不同出身的人所获取到的信息差异，可能比现实世界的差异还大，因此很可能形成截然不同的视野、格局和能力，从而加剧而不是减少阶级的固化。

时效性

从功利主义的角度讲，这些智能化的方法能够降低犯罪率，但是这里面一个核心的伦理问题就是“我们是否应该为尚未发生的一种可能性付出代价”？

计算机让人类更加望尘莫及的，是记录和回顾历史的能力。因为大量过往被数据记录下来，所以我们今天的错误可能会带来很长时间难以消除的影响。

中国有句古话，叫做“浪子回头金不换”。父母亲友也许会选择原谅甚至忘记，但大数据和人工智能不会遗忘。Mayer-Schönberger就曾经强烈呼吁应该给我们的数据一个“被遗忘的权利”——除了出于科学研究、档案管理、公共安全或其他特殊的既非盈利也不面向一般公众的目的，个人和企业不应该存储、分析、使用和传播超出一定年限的数据[18]。