人工智能识别宝莱坞好莱坞电影中的社会偏见趋势

导读 宝莱坞的粉丝和评论家——这个以孟买为中心的价值 21 亿美元的电影业的流行名称——可能对这一切有所了解,特别是因为电影经常反映文化的

宝莱坞的粉丝和评论家——这个以孟买为中心的价值 21 亿美元的电影业的流行名称——可能对这一切有所了解,特别是因为电影经常反映文化的变化。但这些见解来自卡内基梅隆大学计算机科学家设计的自动计算机分析。

由 CMU 语言技术研究所 (LTI) 的 Kunal Khadilkar 和 Ashiqur R. KhudaBukhsh 领导的研究人员收集了过去七年中每一年的 100 部宝莱坞电影,以及 100 部同期好莱坞最卖座的电影。然后,他们使用统计语言模型来分析这 1,400 部电影的字幕中的性别和社会偏见,寻找诸如哪些词彼此密切相关等因素。

“大多数电影文化研究可能会考虑五到十部电影,”LTI 的硕士生 Khadilkar 说。“我们的方法可以在几天内查看 2,000 部电影。”

该研究的合著者、创始人大学计算机科学学院教授汤姆米切尔说,这是一种使人们能够更精确地研究文化问题的方法。

“我们正在讨论大规模和跨时间对电影的统计、自动分析,”米切尔说。“它让我们对理解这些电影中隐含的文化主题有了更深入的探索。” 他补充说,相同的自然语言处理工具可用于快速分析成百上千的书籍、杂志文章、广播记录或社交媒体帖子。

例如,研究人员通过使用所谓的完形填空测试来评估电影中的美容习惯。从本质上讲,这是一个填空题:“美丽的女人应该有白皮肤。” 他们指出,语言模型通常会预测“软”作为答案。但是当模型使用宝莱坞字幕进行训练时,一致的预测变得“公平”。使用好莱坞字幕时也发生了同样的事情,尽管偏见不那么明显。

为了评估男性角色的流行程度,研究人员使用了一种称为男性代词比率 (MPR) 的指标,该指标将“他”和“他”等男性代词的出现次数与男性和女性代词的总出现次数进行比较。从 1950 年到今天,宝莱坞和好莱坞电影的 MPR 大约在 60 到 65 MPR 之间。相比之下,谷歌图书精选的 MPR 从 1950 年代的接近 75 下降到 2020 年代的约 50。

嫁妆——新娘家人送给新郎的金钱或财产礼物——在 1960 年代初被取缔之前在很常见。研究多年来与嫁妆相关的词,研究人员在 50 年代的宝莱坞电影中发现了诸如“贷款”、“债务”和“珠宝”之类的词,这表明它们是合规的。到 1970 年代,诸如“同意”和“责任”等其他词开始出现。最后,在 2000 年代,与嫁妆最密切相关的词——包括“麻烦”、“离婚”和“拒绝”——表示不遵守或其后果。

“所有这些我们都知道,”LTI 项目科学家 KhudaBukhsh 说,“但现在我们有了量化它们的数字。随着这些偏见的减少,我们还可以看到过去 70 年的进展。”

免责声明:本文由用户上传,如有侵权请联系删除!