Ещё больше данных: 7 историй о том, зачем нам Big Data
Массивы цифровых данных стали и подарком, и головной болью для человечества. Информация накапливается повсюду: покупки, чекины, поведение в соцсетях, фотографии, видео, геолокация. Огромное количество этих данных находится в открытом доступе — нам остаётся только научиться с ними работать.
Какой день недели самый популярный для расставаний
David McCandless
Журналист, дизайнер, автор книг по работе с данными. Работает с изданиями The Guardian, Wired и другими. Живёт в Лондоне.
Дэвид МакКэндлесс, журналист и автор книги Information is Beautiful, делает упор на визуализации данных — по его мнению, если она не упрощает восприятие большого объёма информации и не помогает выявлять неочевидные связи, это просто красивая картинка. На момент своего выступления Дэвид всего год занимался журналистикой данных, однако в поисках интересных тенденций успел сравнить, на что в мире тратится больше всего денег, составил карту человеческих страхов и график расставаний по дням недели на основе статусов в фейсбуке.
Как статистика может понизить уровень преступности
Anne Milgram
Живёт в Нью-Йорке, возглавляет лабораторию по использованию больших массивов данных в системе уголовного правосудия в Нью-Йоркской школе права. Имеет научную степень по философии и юриспруденции. Ранее занимала должность генерального прокурора штата Нью-Джерси.
Заняв должность генпрокурора Нью-Джерси, Энн Милгрэм обнаружила, что в системе уголовного судопроизводства США не используются статистические данные и при вынесении приговора судьи вынуждены опираться на личный опыт. Так, например, судья не знает, какова вероятность попадания его подсудимого в тюрьму ещё раз. Однако с помощью статистики такую вероятность вполне можно рассчитать на основе подробностей дела, а также возраста и места проживания подсудимого. Милгрэм занялась созданием единой криминальной базы, которая, как она надеется, в корне поменяет систему вынесения приговоров.
Как найти самый одинокий штат
R. Luke DuBois
Программист, композитор, педагог. Живёт в Нью-Йорке. Преподаёт в Нью-Йоркском университете. Возглавляет Бруклинский экспериментальный медиацентр в Политехническом институте Нью-Йоркского университета. Защитил диссертацию по музыкальному искусству в Колумбийском университете.
На примере своих девяти проектов в области больших данных Р.Люк Дюбуа показывает, что исходным материалом для исследования может быть что угодно: музыкальные файлы, фильмы, получившие награду Киноакадемии, собственная переписка по электронной почте. В какой-то момент, посчитав, что данные переписи американцев недостаточно интересны, Дюбуа решил обратиться к гораздо более мощному источнику персональных данных: сайтам знакомств. В 2010 году он завёл от лица гетеро- и гомосексуальных мужчин и женщин анкеты на 21 сайте знакомств и скачал около 19 млн профилей пользователей в Америке, что сопоставимо с 20% взрослого населения США. Отсортировав данные по индексам штатов, Дюбуа смог создать карты Америки по количеству одиноких людей или использующих в своих профилях слово «пикантный».
Как мы учимся говорить
Deb Roy
Профессор и преподаватель Массачусетского технологического института. Специализируется на языке, играх и социальной динамике на стыке искусственного интеллекта и когнитивной психологии. Также работает старшим медиа-аналитиком в Твиттере.
Деб Рой, исследователь Массачусетского технологического института, решил разобраться в том, как его сын учится говорить. Для этого с рождения ребёнка на потолке каждой комнаты Рой установил камеры, которые задокументировали 90 тысяч часов жизни семьи. С помощью видеомассива Рой и его коллеги смогли проследить, что влияло на появление новых слов в словаре ребёнка и как «га-а-а» превращается в «вода».
Как собирать медицинскую информацию в Африке
Joel Selanikio
Практикующий врач, живёт в Вашингтоне. Возглавляет компанию Magpi, которая развивает новые технологии обработки данных в сфере здравоохранения. Ранее работал эпидемиологом в центре по контролю за заболеваниями, а в 2014–2015 годах был главврачом в Центре лечения эболы в Сьерра-Леоне.
Работа с данными в сфере здравоохранения всё ещё затруднительна. В развивающихся странах врачи вынуждены ездить по деревням, стучаться в дома, записывать ответы на вопросы на бумаге. Часто от получения данных до их ввода и обработки проходит слишком много времени, и информация устаревает ещё до того, как до неё доберутся аналитики. Врач Джоэл Селаникио рассказывает, как менялся сбор данных в развивающихся странах за последние 20 лет, начиная с того, как данные стали при сборе заносить в карманные компьютеры, и заканчивая использованием облачных сервисов.
Как встретить идеального мужа
Amy Webb
Живёт в Балтиморе. Работала журналистом в Newsweek и Wall Street Journal, сейчас возглавляет консалтинговое агентство по цифровым стратегиям Webbmedia Group.
Журналистка Эми Вебб искала партнёра на сайте знакомств, когда после серии неудачных свиданий решила применить к поиску исследовательский подход. Она составила список из 72 необходимых качеств партнёра и, пользуясь сайтами знакомств как базами данных, начала выводить свой алгоритм поиска. Эми вычислила, сколько существует мужчин, подходящих под её требования, и на какие женские профили чаще реагируют мужчины. В итоге она нашла мужа и написала книгу о своём проекте.
Как прогнозировать поведение людей с помощью социальных сетей
Jennifer Golbeck
Живёт в Мэриленде. Возглавляет лабораторию по социальному интеллекту в университете Мэриленда. Имеет докторскую степень по информатике, известна своими работами в сфере компьютерного анализа социальных сетей.
Пользователи социальных сетей генерируют огромные массивы персональных данных. Специалист по сетевому анализу Дженнифер Голбек разработала алгоритмы, позволяющие на основе лайков и репостов в фейсбуке достаточно точно предсказать политические предпочтения людей, личностные характеристики, сексуальную ориентацию, религию, возраст, интеллект, степень доверия к другим людям и многое другое. Голбек подчёркивает, что учёные занимаются таким анализом в научных целях, но в подобных прогнозах также могут быть заинтересованы, к примеру, работодатели, что в очередной раз поднимает вопрос об этике использования массивов персональных данных.
(Изображение на обложке: informationisbeautiful.net.)