Notte della Ricerca 2025 · Università di Modena e Reggio Emilia
Notte della Ricerca
Logo della demo

Corrispondono?
Insegniamo all’AI a confrontare immagini e parole

PAC‑Score è una metrica automatica per valutare le didascalie di immagini e video. Il metodo è stato presentato a CVPR 2023 (Highlight) — ampiamente considerata la conferenza più prestigiosa in Computer Vision ed AI.

Articolo di riferimento: Positive‑Augmented Contrastive Learning for Image and Video Captioning Evaluation — CVPR 2023 Highlight ✨

Come CLIP confronta immagini e testo

  • 1 Due encoder: una rete di visione trasforma l’immagine in un vettore e un modello linguistico trasforma la frase in un vettore.
  • 2 Stesso spazio: entrambi i vettori vivono nello stesso spazio “semantico”, quindi i punti vicini descrivono contenuti simili.
  • 3 Similarità: CLIP usa la similarità coseno (da −1 a 1). Un valore più alto indica che immagine e testo combaciano meglio.
  • 4 Addestramento contrastivo: le coppie che corrispondono vengono avvicinate; le non‑corrispondenze vengono allontanate.
Esempio: per un’immagine di “un cane che prende un frisbee”, la didascalia “un cane salta per prendere un frisbee” potrebbe ottenere 0.82, mentre “un’auto parcheggiata in strada” ottiene 0.12. Un punteggio più alto indica una migliore corrispondenza.

PAC‑Score si basa su queste caratteristiche immagine–testo e introduce la positive augmentation per valutare meglio la qualità delle didascalie.

CLIP per il retrieval e motori di ricerca multimodali

  • 1 Indicizza come vettori: calcola gli embedding CLIP per ogni immagine (o testo) e salvali in un indice; normalizza (L2) per usare la similarità coseno.
  • 2 Query in testo o immagine: codifica la query (testo o immagine) con CLIP e recupera i vicini più simili dall’indice.
  • 3 Cross‑modal: testo→immagini e immagine→testi funzionano allo stesso modo perché gli embedding vivono nello stesso spazio.
  • 4 Scala e qualità: per grandi collezioni usa indici approssimati (ANN) e, se serve, un re‑ranking sui primi risultati.
Esempio: scrivi “tramonto sul mare con barca” → ottieni le immagini più vicine; carica una foto di un “gatto tigrato” → trova le descrizioni più pertinenti.

Questi principi sono la base dei motori di ricerca multimodali: un unico indice di vettori per contenuti visivi e testuali, interrogabile con qualunque modalità.

Si apre in una nuova scheda. Se la demo impiega qualche secondo a caricarsi, la sessione remota si sta avviando.