Des chercheurs de l’UC Berkeley ont créé un logiciel qui fait la moyenne des recherches d’images en un seul résultat artistique.

Chaque jour, les utilisateurs téléchargent plus de 350 millions de photos sur Facebook. Cet afflux d’images a conduit les analystes à estimer que 10 % des 3,5 billions de photos prises dans le monde ont été prises l’année dernière. Toutes ces données qui inondent le Web signifient que si vous recherchez une image ou un objet particulier (à quoi ressemble un chat tigré orange, par exemple) vous êtes inondé de résultats de recherche.

Le mois dernier, des chercheurs de l’Université de Californie à Berkeley ont dévoilé un nouveau logiciel, AverageExplorer, qui permettra aux utilisateurs de voir l’image « moyenne » qui représente ce qu’ils recherchent. Plutôt qu’une image qui vaut mille mots, c’est une image qui vaut mille images, voire plus.

« Lorsque vous effectuez une recherche d’images Google, vous parcourez des pages et des pages d’images », explique Jun-Yan Zhu, étudiant diplômé de l’UC Berkeley et auteur principal de l’article, présenté cette année à la conférence et exposition internationale sur l’infographie. et techniques interactives à Vancouver. « C’est énorme et difficile à résumer ; vous ne pouvez pas avoir une idée de ce qui se passe.

Pour son offre initiale, Zhu et son équipe ont collecté des photographies via des recherches d’images sur Flickr, Google et Bing. Le logiciel est suffisamment peu gourmand en énergie pour fonctionner sur un ordinateur de bureau moyen et peut traiter quelque 10 000 images simultanément.

Les utilisateurs affinent leurs recherches de différentes manières. Ils peuvent dessiner et colorer une forme, comme s’ils dessinaient dans Adobe Photoshop ou Illustrator, pour affiner le résultat de leur image moyenne. Par exemple, colorer l’arrière-plan d’une image moyenne de la Tour Eiffel sélectionnera automatiquement l’image moyenne pour n’extraire que les photos prises de nuit. Vous pouvez également tracer des lignes angulaires pour contrôler l’orientation d’un papillon dans le composite.

Pont des Soupirs, du jour à la nuit

En affinant les couleurs dans une image AverageExplorer du Pont des Soupirs, vous pouvez changer la scène du jour au crépuscule puis à la nuit.

Une fois qu’une image moyenne est créée, un processus qui peut prendre jusqu’à une minute, les utilisateurs peuvent affiner davantage le résultat en utilisant ce que l’équipe appelle le mode Explorateur. Dans ce mode, cliquer sur une certaine partie d’une image, par exemple le nez d’un chat, révélera d’autres options ou améliorations courantes pour cet endroit, peut-être des nez bleus ou noirs, ou des nez arrondis au lieu d’anguleux. Dans une vidéo de démonstration, par exemple, l’équipe a affiné une image d’enfants sur les genoux du Père Noël en sélectionnant uniquement les images où le Père Noël a un enfant sur chaque bras.

Selon Zhu, le système deviendra particulièrement puissant en tant qu’outil de formation d’algorithmes de vision par ordinateur, comme ceux utilisés par les applications Google Goggles ou Amazon Firefly, qui peuvent identifier ce vers quoi pointe une caméra. « Dans le domaine de la vision par ordinateur, les gens dépensent beaucoup d’argent pour annoter des objets », explique-t-il. « Vous pouvez désormais appliquer l’annotation à l’image moyenne. L’idée est qu’il suffit de travailler sur une seule image pour propager toutes les images d’un ensemble de données.

Trouver des races de chats

En affinant les modes d’un résultat de recherche, les chercheurs peuvent trouver des races spécifiques de chats, notamment (de gauche à droite) le Ragdoll, le Siamois, le Maine Coon et le Sphinx.

La création d’œuvres d’art est la solution la plus simple pour AverageExplorer. L’équipe s’est inspirée d’artistes des nouveaux médias comme Jason Salavon, qui a minutieusement créé à la main des photographies moyennées. Il pourrait également être utilisé pour créer un plug-in Facebook permettant aux utilisateurs de modifier l’image moyenne d’eux-mêmes.

Les aspirations des chercheurs sont encore plus vastes et plus percutantes. Les sociologues pourraient utiliser le système pour repérer et rechercher les tendances sociales ; par exemple, une image moyennée pourrait prouver que les mariées se tiennent le plus souvent à droite du marié dans les portraits de mariage. AverageExplorer pourrait également être un outil utile pour les analystes des médias qui tentent de décortiquer la couverture télévisée : la posture de Stephen Colbert change-t-elle lorsqu’il parle de George W. Bush contre Barack Obama ?

En permettant aux utilisateurs d’interagir intuitivement avec les données visuelles au lieu d’avoir du mal à saisir la bonne chaîne de mots-clés, les utilisateurs seront en mesure de combler ce que le conseiller de Zhu et co-créateur d’AverageExplorer, Alexei Efros, appelle le « goulot d’étranglement linguistique ».

AverageExplorer pour les achats en ligne
Surveiller Logo YouTube

L’équipe imagine une suite d’outils personnalisés conçus pour des tâches spécifiques et difficiles à articuler. Une application d’achat, par exemple, permettrait à un utilisateur de rechercher sur la toile une paire de talons avec la couleur, la forme et la hauteur exactes qu’il recherche. Zhu envisage un outil qui s’intègre au flux de travail des dessinateurs de la police, permettant à un témoin de rechercher dans les bases de données faciales les caractéristiques qui correspondent à celles de l’agresseur et de construire un portrait composite.

Une version de base de AverageExplorer sera publiée cet automne.

4/5 - (28 votes)