正他们偏向男性算法还有待观察。们希望他们会,因为机器不仅能反映们偏见,有时还会放大它们——而且是大幅放大。2017年图像研究显示,女性出现在烹饪相关图片中可能性至少比男性高33%,但以这个数据集为基础训练算法将厨房图片与女性联系起来概率是68%。这篇论文还发现,原始偏差越大,放大效应就越强,这或许可以解释为什该算法会将张站在烤炉前肥胖秃顶男子照片标记为女性。因为厨房>男士脱发。
斯坦福大学生物医学科学助理教授詹姆斯·邹解释这点重要性。他举个例子,有人在个程序上搜索“计算机程序员”,该程序受过数据集训练,而数据集里这个词与男性关联度高于女性。[44]该算法便可能认为男性程序员开发网站比女性程序员更重要——“即使这两个网站完全样,除开发者名字和性别代词”。因此,个偏向男性算法如果以有性别数据缺口语料库为基础进行训练,真能让女性失业。
但网络搜索还只是触及算法如何指导决策表面。据《卫报》报道,全美国72%简历从未经过真人阅读,[45]而机器人已经参与到面试过程中,它们算法依据“表现优异员工”姿势、面部表情和声调进行过训练。[46]听起来好像很厉害——直到你开始考虑潜在数据缺口:程序员能否确保这些表现优异员工具有性别和族裔多样性?如果不能,算法能否考虑到这点?该算法是否经过训练,能够考虑到声调和面部表情社会化性别差异?们并不知道答案,因为开发这些产品公司并不分享他们算法——但让们面对现实吧,根据现有证据,这似乎不太可能。
人工智能系统也已被引入医疗领域,用以指导诊断——尽管这最终可能成为医疗保健福音,但它目前给人感觉是有点傲慢。[47]在将人工智能引入诊断学同时,人们似乎很少或根本没有意识到,有大量证据证明,在涉及女性医疗数据方面长期存在着数据缺口。[48]这可能是场灾难。事实上,很可能是致命——尤其是们已经解到机器学习会放大既存偏见。由于们医学知识严重偏向男性身体,人工智能可能对女性做出更糟糕而不是更好诊断。
而且目前几乎没有人意识到这里正在酝酿个大问题。2016年谷歌新闻研究报告作者指出,在有关单词联想软件“数百篇论文”中,没有篇承认这些数据集构成“公然性别歧视”。图像标签论文作者则指出,他们“最先证明结构化预测模型放
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。