Explorando diferentes modos de ver

Redes de rótulo x espaços vetoriais

A proposta da atividade é fomentar o olhar cético e crítico em relação às metodologias digitais para análises de acervos visuais, estimulando a imaginação metodológica e a postura científica diante de abordagens experimentais e exploratórias mediadas por modelos de visão computacional. O exercício consiste em comparar criticamente dois procedimentos recorrentes de análise de grandes corpora visuais: análise de redes de rótulos descritores de imagem e exploração de agrupamentos por semelhança de características computacionais. O primeiro traduz as imagens em rótulos semânticos gerados por um sistema de visão computacional e organiza essas relações em forma de rede. O segundo traduz as imagens em vetores numéricos extraídos de uma arquitetura convolucional e projeta esse espaço de similaridade em duas dimensões. Em ambos os casos, o corpus é o mesmo. O que muda é o regime de representação mobilizado para tornar o conjunto legível: no primeiro, a imagem aparece mediada por descritores linguísticos; no segundo, por proximidade vetorial entre features visuais. O objetivo é observar como diferentes escolhas metodológicas produzem distintas formas de ver e analisar um mesmo acervo.

Vision Labels Network

Na etapa Vision Labels Net, as 1.000 imagens e os respectivos rótulos semânticos (labels) obtidos pela Google Vision API (2024) foram usados para construir uma rede com dois tipos de nós (bipartida) — imagens e rótulos. Sempre que um rótulo é atribuído a uma imagem, uma aresta é desenhada entre eles. Nesse tipo de abordagem, a relação entre imagens é mediada por descritores semânticos que resultam dos modelos de visão usados na Google Vision API.

Abrir visualização

Pixplot

O mesmo corpus foi processado no PixPlot, ferramenta desenvolvida no Yale Digital Humanities Lab para exploração interativa de grandes coleções de imagens em espaços bidimensionais. Diferentemente da rede de rótulos, o PixPlot não organiza o acervo a partir de descritores linguísticos gerados por uma API. Ele compara as imagens com base em representações numéricas extraídas diretamente de seus padrões visuais, produzidas por uma rede neural pré-treinada.

Abrir visualização