proverbIT

1Department of Computer Science, University of Turin, Turin, Italy
2Independent Researcher
Annotators: Giovanni Scudo, Nicola Menegon, Leonardo Di Biagio

Abstract

I Large Language Models sono a tendenzialmente a conoscenza dei proverbi italiani più comuni. Ciò nonostante, quando esplicitamente interrogati sul fornire il completamento corretto di un proverbio le loro performance calano drasticamente. proverbIT è un benchmark che permette di indagare le preferenze ed i comportamenti dei LLM in questo contesto.

Descrizione del Dataset e del Task

Il dataset contiene una collezione di 100 proverbi italiani, ognuno dei quali è stato spezzato in due. Per ogni proverbio sono state manualmente create quattro continuazioni alternative, seguendo regole specifiche. In particolare:

  • A è una continuazione assonante con la continuazione originale, ma con senso assurdo.
  • B è un sinonimo non assonante della continuazione originale.
  • C è la continuazione inversa del proverbio originale, cercando di mantenerne l'assonanza laddove possibile.
  • D è una continuazione ragionevole/tautologica del proverbio (non assonante).
Considerando ad esempio il proverbio "A buon intenditore, poche parole", il prompt fornito ai LLM è il seguente:

Completa in maniera esatta il proverbio scegliendo fra le seguenti opzioni (che non hanno errori di battitura) indicando solo la lettera. 

A buon intenditor,...

A) ...foche canore
B) ...zero chiacchiere
C) ...molte parole
D) ...è chiaro tutto
E) Nessuna delle altre risposte

Non aggiungere commenti, le risposte possibili sono solo A, B, C, D, E.

Valutazione

Ogni prompt è sottoposto tre volte ad ogni LLM e la risposta finale considerata è scelta tramite voto di maggioranza fra le tre. L'unica risposta legittima è sempre e solo 'E) Nessuna delle altre risposte', ma è interessante osservare su quale tipologia di risposta si orientano i LLM quando sbagliano (se A, B, C o D).

Classifica

Posizione Modello* Accuratezza % Vuote % Ragionamento
gpt-5
89.0
0.0
grok-4-07-09
88.0
2.0
gpt-o3
86.0
0.0
gemini-2.5-pro-preview-06-05
77.0
0.0
gpt-5-nano
77.0
0.0
gpt-o4-mini
75.0
0.0
deepseek-r1-0528
74.0
0.0
claude-sonnet-4-thinking
73.0
0.0
qwen3-235b-a22b
65.0
0.0
10º gpt-4o
64.0
0.0
11º gpt-5-mini
64.0
0.0
12º gpt-oss-120b
57.0
0.0
13º gpt-5-chat
50.0
0.0
14º claude-sonnet-4
46.0
0.0
15º deepseek-chat-v3-0324
40.0
0.0
16º kimi-k2
32.0
0.0
17º gpt-oss-20b
32.0
0.0
18º mistral-small-3.1-24b-instruct
28.0
0.0
19º grok-3-beta
26.0
0.0
20º gemini-2.5-flash-preview
18.0
0.0
21º claude-3.7-sonnet
17.0
0.0
22º gemini-2.5-flash-preview-05-20
12.0
0.0
23º gemini-2.5-flash-lite-preview-06-17
7.0
0.0
24º llama-4-maverick
6.0
0.0
25º gemma-3-27b-it
4.0
0.0

*Altri modelli in arrivo!

Modelli con budget di ragionamento limitato a 2000 token.

Il modello non è riuscito a fornire una risposta valida entro tre tentativi.

Statistiche Dettagliate delle Risposte

Modello* A) Assonante B) Sinonimo C) Inverso D) Ovvietà E) Nessuna Empty
gpt-5 0 28 3 1 268 0
grok-4-07-09 0 19 0 1 261 19
gpt-o3 2 34 3 0 261 0
gemini-2.5-pro-preview-06-05 3 62 5 1 229 0
gpt-5-nano 8 40 24 7 221 0
gpt-o4-mini 6 53 16 2 223 0
deepseek-r1-0528 2 80 2 3 213 0
claude-sonnet-4-thinking 3 77 10 0 210 0
qwen3-235b-a22b 12 63 32 6 187 0
gpt-4o 3 78 18 5 196 0
gpt-5-mini 2 76 20 7 195 0
gpt-oss-120b 20 48 35 20 177 0
gpt-5-chat 6 119 22 3 150 0
claude-sonnet-4 3 101 50 8 138 0
deepseek-chat-v3-0324 25 89 51 20 115 0
kimi-k2 33 94 59 13 101 0
gpt-oss-20b 84 56 28 20 99 13
mistral-small-3.1-24b-instruct 19 86 56 46 93 0
grok-3-beta 16 162 36 4 82 0
gemini-2.5-flash-preview 19 141 71 7 62 0
claude-3.7-sonnet 25 123 73 25 54 0
gemini-2.5-flash-preview-05-20 19 136 82 25 38 0
gemini-2.5-flash-lite-preview-06-17 78 135 49 16 22 0
llama-4-maverick 50 149 60 26 15 0
gemma-3-27b-it 102 96 65 24 13 0

*Altri modelli in arrivo!

Catene di Ragionamento Interessanti

  • Le bugie...
    deepseek-r1
  • Non è tutto oro...
    qwen3-235b-a22b

Le bugie...

deepseek-r1
Opzioni e Risposta:
A) hanno le gambe morte
B) hanno brevi arti inferiori
C) hanno le gambe stabili
D) rovinano le amicizie
E) Nessuna
Completamento originale:
hanno le gambe corte

Ragionamento

Okay, ho bisogno di completare correttamente il proverbio "Non è tutto oro..." scegliendo tra le opzioni date. Le opzioni sono:

A) ...quel che lucida

B) ...ciò che brilla

C) ...ciò che è opaco

D) ...quel che è metallico

E) Nessuna delle altre risposte

Prima, mi ricordo come va il proverbio completo. So che il proverbio classico è "Non è tutto oro quel che luccica". Tuttavia, nessuna delle opzioni offre esattamente "luccica".

Guardando le opzioni:

A) "quel che lucida" - "Lucida" è simile a "luccica", dato che entrambi significano brillare o splendere.

B) "ciò che brilla" - Anche questo significa brillare, quindi è molto vicino al significato originale.

C) "ciò che è opaco" - Opaco è l'opposto di brillante, quindi non ha senso in questo contesto.

D) "quel che è metallico" - Mentre l'oro è un metallo, il proverbio non si riferisce semplicemente ai metalli ma a ciò che appare prezioso ma non lo è.

L'essenza del proverbio è che non tutto ciò che sembra prezioso o attraente (come l'oro che brilla) è effettivamente di valore. Quindi le opzioni A e B catturano entrambe questo significato.

Confrontando A e B: "quel che lucida" usa "lucida", che è un sinonimo più diretto di "luccica" nel proverbio originale. "Lucida" significa lucidare o brillare, quindi ha lo stesso senso. Invece, "ciò che brilla" (B) è più generico per brillare, ma comunque corretto nel contesto.

Tuttavia, il proverbio originale italiano è tipicamente "Non è tutto oro quel che luccica", quindi "quel che lucida" (A) è la versione più fedele perché "lucida" funziona come sostituto di "luccica".

L'opzione E ("Nessuna delle altre risposte") non è necessaria perché A o B sono accettabili. Ma devo vedere quale è la scelta migliore.

Analizzo: Tecnicamente, la versione corretta è con "luccica", ma poiché non è tra le opzioni, "lucida" è un'alternativa valida e comune. Inoltre, molte fonti a volte usano varianti come "brilla", ma "lucida" è più vicino in termini di espressione.

Ho sentito usare sia "luccica" che "lucida" informalmente, quindi A mi sembra corretta. B è anche corretta nel significato, ma non è la formulazione tradizionale. Quindi scelgo A come risposta.

Video