Нейросети научились видеть объекты на двумерных картинках с разных ракурсов

Программа сама «домысливает», как сцена будет выглядеть при смене точки наблюдения.

Компания Deepmind разработала нейронную сеть Generative Query Network (GQN), которая способна проанализировать двумерную картинку и предположить, как изображенные на ней объекты выглядят с разных ракурсов, пишет News Scientist.

Для тренировки нейросети специалисты использовали наборы изображений одних и тех же сцен, снятых с разных точек. Таким образом программа училась понимать, как при смене ракурса меняются объекты на картинках, и постепенно смогла самостоятельно прогнозировать эти изменения. При «домысливании» сцен нейросеть учитывает освещение, цвета и текстуры, которые есть на исходных изображениях.

«Представьте, что вы смотрите на гору Эверест, а потом делаете шаг вперед: вы приблизились к ней на метр, но гора осталась такой же, как была. Это дает некоторую информацию о том, как далеко она находится от вас. При этом если вы сделаете то же самое не с горой, а с кружкой, то увидите, что ее положение меняется. Примерно по такому принципу работает и наша технология», — говорит один из создателей GQN Али Эслами.

Новое и Лучшее

37 607

8 843

10 798
11 032
Больше материалов