人工智能也有性别歧视,错都在人类自己

计算机理应是中性客观的,但创造它的人类不是,人类的偏见无意识地体现在了分析语言的算法当中。这种隐藏在算法中的偏见被证实已造成影响。

今年 7 月,波士顿大学的 Tolga Bolukbasi 和微软研究院的研究者就发现,被大量研究者用以机器翻译和智能网页搜索的数据库 Word2vec 就存在性别歧视。

如果你在数据库里输入:”巴黎:法国::东京:x”,那么系统会告诉你 x = 日本。
但如果我们输入:”父亲:医生::母亲:x”,系统给出的答案则是 x=护士。
如果输入:”男性:程序员::女性:x”,答案 x=主妇。

这意味着当用人单位在搜索时输入”程序员简历”时,搜索结果则会优先显示男性,因为“程序员”这个词跟男性的关系,比跟女性的更强更紧密。这极其不公平,但这一切就是发生了。

出现这个问题的根本原因是,Word2vec 库中文本带有性别歧视。更可怕的是, 数据库文本 300 万个单词来自 Google 新闻,这都是由专业记者撰写的新闻。

这些在算法联想上出现的性别歧视,本质是因为语言本身就带有历史文化沉淀下的偏见。

语言世界西先于个体存在,每个人都只能后来降生于已经存在的语言世界里。在我们使用了某个文字的时候,就已经接受了文字中蕴含的偏见。我们用“娘娘腔”来形容一个男人的时候,当我们用“女汉子”来形容一个女性的时候,这背后是根深蒂固的偏见。

p2244016862

当然,程序员也在试图帮助人工智能摆脱某些单词所带来的偏见

微软研究院程序员 Adam Kalai 就与波士顿大学研究人员合作,他们使用一种名为“词向量(word embedding)”的技术,去教育计算机从发掘词语之间的关系来处理语言。

该研究小组正在利用一种被称为“词向量(Word Embedding)”的技术,教育机器通过寻找单词之间的关系来处理语言。通过该方法,机器可以通过上下文来比较“她”和“他”。具体应该时,能够找到文本适合的配对,如“姐姐-哥哥”、“女王-王帝”。

他们发现,能够训练机器忽略单词的某些关联,同时又保有其关键信息。通过调整他们的算法,能够去除单词间的某些关联,如“前台”和“女性”,同时保留合适的配对,如“女王”和“女性”。

研究人员表示,“这是一项很微妙的工作,要去理解种族、民族和文化刻板印象产生的直接和简介的偏见。这项工作今后的重要方向就是量化和消除这些偏见。”

所有技术都会反映造物者的价值观,假若我们没有谨慎对待机器学习,那么我们创造出来的人工智能就会变成社会的缩影,一个被隐藏无数偏见却不自知的社会缩影。

订阅更多文章