ГлавнаяПресс-ЦентрПубликации

Что роботы думают о фотографиях

Скачать статью (.pdf)

Недавно компания Xerox разослала пресс-релиз о создании «уникальных технологий для поиска, сортировки и анализа графических изображений». В частности, на сайте компании по адресу open.xerox.com/Services/imaging-demos появились шесть новых служб, среди которых сервис поиска изображений по примеру, служба категоризации и распознавания изображений, инструмент для оптимизации цветов на изображении, а также средство, позволяющее вписывать тексты в уже готовые изображения. В целом, на портале Open Xerox (open.xerox.com) представлены прототипы технологий, которые были разработаны Xerox в ходе НИОКР. Эти сервисы доступны в виде альфа- и бета-версий для использования и тестирования еще до того, как будут предложены рынку в виде продуктов.

Similar Image Search

Итак, протестируем предложенные сервисы, пытаясь соблюдать объективность. Начнем со службы Similar Image Search, позволяющей искать в Интернете схожие изображения по заданному примеру, и в качестве такового возьмем фото собаки, которая носом уткнулась в камеру, понятно, что ставим не простую задачу.

Первый альтернативный «нос» появляется минуты через две. Правда, принадлежит он еноту, но можно считать, что пуля мимо не прошла. Другие «похожие изображения» – кучка печенья (собачий нос был бы не против), парочка крабов с примкнувшей к ним морской звездой, мохнатые каштаны. Далее поиск притормаживается, и в следующие пять минут вариантов не предлагается. Чуть позже появляются нос сурка, тонна железной руды, мышь-полевка, выглядывающая из норки, ржавый газовый вентиль, а также огромный испуганный человеческий глаз. Набираюсь терпения. Система предлагает изображение грецких орехов и… о чудо. Еще один собачий нос, действительно похожий на тот, что был на исходном снимке.

Image Categorizer

Теперь тестируем вторую технологию, которую предлагает компания Xerox, – Image Categorizer (сервис распознавания и категоризации изображений). Начнем с самых простых объектов, например, предложим системе фото футбольного мяча. «С вероятностью 84,3% это бильярдный шар, - предположила система распознавания, - с вероятностью 83,4% предложенный объект является мячом, и существует 66,7%-я вероятность, что это лампочка». Усложним задачу и предложим фотографию Луны в ночном небе. С этой задачей Xerox Image Categorizer справился на отлично, предположив с большой степенью вероятности, что на предложенном снимке изображены лунные кратеры, полная Луна или «глубокий космос». Правда, был еще вариант, что это «монета». Предложим фотографию фиалок. «С вероятностью 75,1% это фиалки», - информирует категоризатор. Тюльпаны и лотосы были определены как розы. Зато при анализе поля тюльпанов сервис не сомневался, в этом случае цветы определялись как тюльпаны с вероятностью 100%.

В целом, как указывают разработчики, решение способно распознавать объекты в 706 различных категориях. В частности, 58 различных типов спорта, 136 видов животных, 111 типов промышленных производств, и 237 типов объектов повседневной жизни. Также система распознает 41 известный памятник. (Впрочем, собор Василия Блаженного в Москве система на момент тестирования опознать не смогла.) При этом каждый пользователь может помочь категоризатору, предложив название для объекта, изображенного на фотографии.

Попытаемся обучить Xerox Image Categorizer, предложив ему последовательно пять различных фотографий собора Василия Блаженного, и указав, что это «St Basil's Cathedral». Затея не удалась, категоризатор все равно полагал, что представленное на фотографии здание находится в парке развлечений Диснея.

Задачу распознавания образов традиционно относят к задачам, которые призван решать искусственный интеллект. Создание систем распознавания образов остается сложной теоретической и технической проблемой, а необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов, где также необходимо отделять важную информацию от несущественной. К слову, в 2011 году компания Xerox получила 1030 патентов, а в целом ежегодно на R&D предприятие тратит порядка $1,5 млрд.

Natural Language Color

Службу Natural Language Color (позволяет работать с цветами на изображении) протестируем на маловыразительном снимке, изображающем небо с облаками и верхушки деревьев. Сервис позволяет выполнять манипуляции с изображением для получения нужного оттенка, причем пользователю не нужно обладать навыками профессионального колориста: достаточно использовать словесное описание. Например, для фотографии с небом и верхушками, использовались команда: «Сделать все цвета, имеющие отношение к небу, более яркими, потом высветлить небо, и затем сделать зеленые света более солнечными». Результат можно видеть на изображении к этому материалу. Для оттенков кожи предлагаются и другие команды, например, можно сделать оттенки, имеющие отношение к коже, более теплыми. К слову, в процессе разработки технологии Natural Language Color специалисты Xerox пользовались колориметрами для привязки цифровых значений к специфическим атрибутам каждого цвета, таких как яркость, насыщенность и глубина. Словарный запас приложения – 65 слов.

Simple Personalized Imaging

Сервис Simple Personalized Imaging позволяет дописывать слова в картинки так, чтобы это выглядело натурально. В качестве примера в системе приведен торт, на котором сверху дописано персонифицированное поздравление. Также возможно добавлять надписи на заборах, на табличках, номерных знаках автомобилей. На сегодняшний день доступно два типа шрифтов, цвет и степень прозрачности которых можно регулировать.

Catepix и Aesthetic Image Search

И наконец, еще одна технология, предлагаемая Xerox, – Catepix, которой по силам определить, «что ваши фотографии в Facebook говорят о вас». При загрузке приложения служба запрашивает доступ к Facebook самостоятельно. К сожалению, мне Catepix ничего не сообщил, сославшись на слишком малое количество доступных изображений. Попытка оценить френда, у которого фотографий значительно больше, также не удалась.

Помимо вышеозначенного, на сайте Xerox представлена альфа-версия ПО Aesthetic Image Search, задача которого – эстетическая оценка фотографий. В частности, алгоритм приложения руководствуется критериями, установленными для фото по категориям «пляж», «водопады», «птица», «лодка», «цветы», «облака/небо», «портрет»... Для примера, портретные фото легче сделать в пасмурный день, ибо яркое солнце заставляет людей щуриться и отбрасывает резкие тени на лица. Алгоритм будет следовать подобной логике. Неудачные же фото определяются, в частности, по слишком прямому освещению от вспышки. Впрочем, вопрос о том, можно ли красоту проверить алгеброй, имеет давнюю историю.

http://www.it-weekly.ru/news/itnews/181788.html

Все публикации