Ніщо людське не чуже: Як алгоритми успадковують наші забобони
Сьогодні штучний інтелект складає вірші, видає музичні імпровізації та малює картини. Але, незважаючи на всю «машинність», за кожною програмою стоїть людина, привносячи в коди, набори тегів і бази даних властиві нам стереотипи, упередження і похибки. Наприклад, база ImageNet, оцінюючи портрет актриси Сігурні Вівер, присвоює їй тег «гермафродит», а колишнього президента США Барака Обаму класифікує як антисеміта.
За якими принципами зображення потрапляють до баз даних? Хто і згідно з якою логікою зіставляє картинки й теги? І чи можна взагалі це зробити однозначно? Експериментуючи з алгоритмами, художниця Ганна Шустікова помітила, що до всього, пов’язаного з жінками та красою, вони мають особливо упереджене ставлення, і вирішила докладніше дослідити цю тему.
Художниця. Має ступінь бакалавра (Московський фізико-технічний інститут), займалася науковою журналістикою й документальною фотографією. Навчається у Школі мультимедіа та фотографії імені Родченка. Живе і працює в Москві.
— Робота над проєктом розпочалася випадково — як гра з новим інструментом. Минулого семестру у Школі Родченка ми вчилися застосовувати алгоритми машинного навчання для роботи з текстом, звуком та зображеннями. Обговорювали критичні статті про проблеми, що виникають під час створення датасетів для навчання нейронних мереж, і, зрозуміло, самі намагалися працювати з їхніми архітектурами.
Цієї весни на слуху була архітектура
Я писала різні слова та фрази, система генерувала зображення, і якоїсь миті результати стали дуже дивними.
Contrastive Language-Image Pre-training
Чому алгоритм бачив красу та жінок подібним чином? Причина пов’язана з тим, що він навчався на основі бази ImageNet. Там зберігається 14 мільйонів картинок із підписами зі слів-тегів, які позначають, що саме зображено, наприклад «стіл», «світлофор», «кішка», «собака». Але є й інші підписи: «чоловік», «жінка», «програміст», «красуня». І ось до них виникає безліч запитань.
Справа в тому, що слова-теги та картинки зіставляють люди, які можуть несвідомо передавати особисті переконання. Система тегів запозичена зі словникової структури, і оскільки ця структура створена давно, вона відбиває застарілі погляди іншого часу.
З кожним словом-тегом або групою синонімів, як заявлено на сайті ImageNet, було зіставлено хоча б тисячу картинок, і від того, які це картинки, залежатиме репрезентація в базі того чи іншого поняття. Наприклад, очевидно, що слово «жінка» (woman) використовували в описі зображень з оголеними фігурами, а «красуня» (beauty) означало обличчя усміхнених білих жінок з укладкою та макіяжем. Так алгоритм успадкував оптику, що містить певні забобони.
Слово «красуня» (beauty) означало обличчя усміхнених білих жінок з укладкою та макіяжем.
Якщо розібратися, все здається очевидним: якщо люди мають якісь упередження, навряд чи створені ними алгоритми будуть об’єктивні. Усе просто, але від усвідомлення цього факту мені стало страшно. Виходить, раніше те, як має виглядати жінка, транслювало суспільство людей, а тепер до них (із такими самими забобонами та гендерними стереотипами) приєдналися машини! І мій проєкт You can touch you can play якраз про це.
Якщо люди мають якісь упередження, навряд чи створені ними алгоритми будуть об’єктивні.
Назву дослідження я взяла з рядка пісні Barbie Girl гурту Aqua. У відео на цю композицію жінка, вбрана лялькою Барбі, представлена максимально сексуалізовано — вона не має сили або власних бажань і, здається, присутня виключно заради задоволення всіх потреб ляльки-чоловіка Кена. Я подумала, що цитата чудово ілюструє тему проєкту — механізм роботи machine
з англійської — «чоловічий погляд», зображення навколишньої дійсності в мистецтві, літературі тощо з чоловічої гетеросексуальної точки зору
Проєкт You can touch you can play представлений у формі зображень та скульптур. Наприклад, його можна побачити на виставці «Зловісні мрії» в «Електромузеї» або на сайті uncannydream.com.
У рамках виставки я вирішила провести експеримент та запропонувати глядачам навчити машину бачити жінок інакше. На жаль, я не можу вплинути на репрезентацію жінок у самій базі зображень ImageNet, тому моя стратегія інша. Спочатку я згенерувала безліч тілесних зображень на запит woman і зібрала з них невеликий датасет, на основі якого навчила нейронну мережу StyleGAN. Тепер вона створює подібні зображення жінок уже сама, не звертаючись до ImageNet. Актуальне завдання — збирання нових картинок, що, як здається, найкраще відповідають слову «жінка». Усіх глядачів та відвідувачів виставки я запрошую завантажити такі зображення у гугл-форму. Отримані картинки я використаю для створення нового датасету, який дозволить перенавчити алгоритм.