Нейросети научились видеть объекты на двумерных картинках с разных ракурсов

Новости 18 июня 2018 Глеб Савченко

Программа сама «домысливает», как сцена будет выглядеть при смене точки наблюдения.

Компания Deepmind разработала нейронную сеть Generative Query Network (GQN), которая способна проанализировать двумерную картинку и предположить, как изображенные на ней объекты выглядят с разных ракурсов, пишет News Scientist.

Для тренировки нейросети специалисты использовали наборы изображений одних и тех же сцен, снятых с разных точек. Таким образом программа училась понимать, как при смене ракурса меняются объекты на картинках, и постепенно смогла самостоятельно прогнозировать эти изменения. При «домысливании» сцен нейросеть учитывает освещение, цвета и текстуры, которые есть на исходных изображениях.

«Представьте, что вы смотрите на гору Эверест, а потом делаете шаг вперед: вы приблизились к ней на метр, но гора осталась такой же, как была. Это дает некоторую информацию о том, как далеко она находится от вас. При этом если вы сделаете то же самое не с горой, а с кружкой, то увидите, что ее положение меняется. Примерно по такому принципу работает и наша технология», — говорит один из создателей GQN Али Эслами.