Corrispondono?
Insegniamo all’AI a confrontare immagini e parole
PAC‑Score è una metrica automatica per valutare le didascalie di immagini e video. Il metodo è stato presentato a CVPR 2023 (Highlight) — ampiamente considerata la conferenza più prestigiosa in Computer Vision ed AI.
Articolo di riferimento: Positive‑Augmented Contrastive Learning for Image and Video Captioning Evaluation — CVPR 2023 Highlight ✨
Come CLIP confronta immagini e testo
- 1 Due encoder: una rete di visione trasforma l’immagine in un vettore e un modello linguistico trasforma la frase in un vettore.
- 2 Stesso spazio: entrambi i vettori vivono nello stesso spazio “semantico”, quindi i punti vicini descrivono contenuti simili.
- 3 Similarità: CLIP usa la similarità coseno (da −1 a 1). Un valore più alto indica che immagine e testo combaciano meglio.
- 4 Addestramento contrastivo: le coppie che corrispondono vengono avvicinate; le non‑corrispondenze vengono allontanate.
PAC‑Score si basa su queste caratteristiche immagine–testo e introduce la positive augmentation per valutare meglio la qualità delle didascalie.
CLIP per il retrieval e motori di ricerca multimodali
- 1 Indicizza come vettori: calcola gli embedding CLIP per ogni immagine (o testo) e salvali in un indice; normalizza (L2) per usare la similarità coseno.
- 2 Query in testo o immagine: codifica la query (testo o immagine) con CLIP e recupera i vicini più simili dall’indice.
- 3 Cross‑modal: testo→immagini e immagine→testi funzionano allo stesso modo perché gli embedding vivono nello stesso spazio.
- 4 Scala e qualità: per grandi collezioni usa indici approssimati (ANN) e, se serve, un re‑ranking sui primi risultati.
Questi principi sono la base dei motori di ricerca multimodali: un unico indice di vettori per contenuti visivi e testuali, interrogabile con qualunque modalità.
Si apre in una nuova scheda. Se la demo impiega qualche secondo a caricarsi, la sessione remota si sta avviando.