São Paulo tem um problema de rosto. Literalmente. Nos servidores da Prefeitura de São Paulo e em dezenas de plataformas privadas que operam na cidade, imagens duplicadas — fotografias idênticas ou quase idênticas arquivadas múltiplas vezes sob metadados diferentes — acumularam-se ao longo de anos, criando confusão nos sistemas de gestão de conteúdo, inflando custos de armazenamento em nuvem e, em alguns casos, comprometendo a integridade de registros públicos urbanos. O problema não surgiu da noite para o dia. Chegamos aqui por uma série de decisões administrativas, migrações tecnológicas mal planejadas e um ecossistema digital municipal que cresceu sem arquitetura unificada.
O contexto importa agora porque a administração do prefeito Ricardo Nunes acelerou, nos últimos dezoito meses, a digitalização de serviços municipais — do alvará eletrônico ao mapeamento de enchentes nas várzeas do Rio Tietê. Cada iniciativa trouxe seu próprio banco de imagens, seu próprio sistema de catalogação, raramente conversando com o que já existia. O resultado é uma sobreposição digital que espelha, no mundo virtual, o mesmo improviso que caracterizou décadas de expansão urbana nas periferias de Guarulhos a Osasco.
As raízes do problema: portais que nunca se falaram
O ponto de inflexão pode ser datado com relativa precisão: 2020, quando a pandemia forçou a Prefeitura de São Paulo a lançar, em questão de semanas, múltiplos portais de comunicação emergencial. O SP156, o portal de serviços, o sistema de monitoramento da Defesa Civil e os canais de comunicação da Secretaria Municipal de Saúde passaram a operar em silos separados, cada um alimentado por equipes diferentes que fotografavam, nomeavam e comprimiam arquivos de formas distintas. Uma mesma imagem aérea da Avenida Paulista podia existir em quatro formatos diferentes, com quatro nomes de arquivo diferentes, em quatro servidores diferentes.
O fenômeno não é exclusivo do setor público. Startups do ecossistema paulistano — concentradas no chamado Cubo Itaú, no bairro de Itaim Bibi, e em aceleradoras como a Wayra, na Vila Olímpia — também relataram crescimento exponencial de imagens duplicadas em seus bancos de dados à medida que adotaram ferramentas de inteligência artificial generativa para produção de conteúdo. Segundo levantamento da Associação Brasileira de Startups publicado em março de 2026, o custo médio de armazenamento em nuvem para empresas de tecnologia no Brasil cresceu 34% entre 2023 e 2025, parte atribuída ao armazenamento redundante não gerenciado.
Bibliotecas fotográficas que deveriam ter passado por deduplicação sistemática ficaram anos sem revisão. No caso municipal, a fusão de sistemas legados — alguns rodando em infraestrutura do início dos anos 2010 — com plataformas mais novas criou o equivalente digital de um arquivo morto: material existe, mas ninguém sabe exatamente onde nem quantas cópias há. Estima-se, com base em auditorias internas de outras prefeituras latino-americanas de porte similar, como Bogotá e Cidade do México, que sistemas sem política de deduplicação acumulam entre 20% e 40% de conteúdo redundante em cinco anos.
O que muda a partir de agora
A Secretaria Municipal de Inovação e Tecnologia tem sob análise, desde o segundo trimestre de 2026, um projeto-piloto de deduplicação automatizada para o acervo fotográfico do portal SP Transparência, que reúne registros de obras, eventos e serviços públicos documentados desde 2013. A tecnologia central — algoritmos de hash perceptual capazes de identificar imagens visualmente similares mesmo com pequenas alterações de compressão ou recorte — já é usada comercialmente por agências como a Getty Images e por plataformas de e-commerce, mas sua adoção por governos municipais brasileiros ainda é incipiente.
Para empresas e criadores de conteúdo sediados na cidade, a lição prática é imediata: implementar políticas de nomenclatura padronizada e rodadas periódicas de auditoria de biblioteca é mais barato do que remediar anos de acúmulo. Ferramentas como o digiKam e o ImageMagick, ambos gratuitos, permitem varreduras básicas de duplicatas em bibliotecas locais. Para quem opera em escala, serviços como o Amazon Rekognition cobram por imagem processada — o preço de referência em reais, cotado em junho de 2026, gira em torno de R$ 0,40 por mil imagens analisadas.
São Paulo chegou a este ponto pelo caminho que sempre chegou aos seus maiores desafios urbanos: crescendo rápido demais para planejar, consertando depois. A diferença desta vez é que o conserto, ao menos, pode começar com um algoritmo.