proverbIT

1Department of Computer Science, University of Turin, Turin, Italy
2Independent Researcher
Annotators: Giovanni Scudo, Nicola Menegon, Leonardo Di Biagio

Abstract

I Large Language Models sono a tendenzialmente a conoscenza dei proverbi italiani più comuni. Ciò nonostante, quando esplicitamente interrogati sul fornire il completamento corretto di un proverbio le loro performance calano drasticamente. proverbIT è un benchmark che permette di indagare le preferenze ed i comportamenti dei LLM in questo contesto.

Descrizione del Dataset e del Task

Il dataset contiene una collezione di 100 proverbi italiani, ognuno dei quali è stato spezzato in due. Per ogni proverbio sono state manualmente create quattro continuazioni alternative, seguendo regole specifiche. In particolare:

  • A è una continuazione assonante con la continuazione originale, ma con senso assurdo.
  • B è un sinonimo non assonante della continuazione originale.
  • C è la continuazione inversa del proverbio originale, cercando di mantenerne l'assonanza laddove possibile.
  • D è una continuazione ragionevole/tautologica del proverbio (non assonante).
Considerando ad esempio il proverbio "A buon intenditore, poche parole", il prompt fornito ai LLM è il seguente:

Completa in maniera esatta il proverbio scegliendo fra le seguenti opzioni (che non hanno errori di battitura) indicando solo la lettera. 

A buon intenditor,...

A) ...foche canore
B) ...zero chiacchiere
C) ...molte parole
D) ...è chiaro tutto
E) Nessuna delle altre risposte

Non aggiungere commenti, le risposte possibili sono solo A, B, C, D, E.

Valutazione

Ogni prompt è sottoposto tre volte ad ogni LLM e la risposta finale considerata è scelta tramite voto di maggioranza fra le tre. L'unica risposta legittima è sempre e solo 'E) Nessuna delle altre risposte', ma è interessante osservare su quale tipologia di risposta si orientano i LLM quando sbagliano (se A, B, C o D).

Classifica

Posizione Modello* Accuratezza % Ragionamento
gpt-o3
86.0
gemini-2.5-pro-preview-06-05
77.0
gpt-o4-mini
75.0
deepseek-r1-0528
74.0
claude-sonnet-4-thinking
73.0
qwen3-235b-a22b
65.0
gpt-4o
64.0
claude-sonnet-4
46.0
deepseek-chat-v3-0324
40.0
10º mistral-small-3.1-24b-instruct
28.0
11º grok-3-beta
26.0
12º gemini-2.5-flash-preview
18.0
13º claude-3.7-sonnet
17.0
14º gemini-2.5-flash-preview-05-20
12.0
15º llama-4-maverick
6.0
16º gemma-3-27b-it
4.0

*Altri modelli in arrivo!

Modelli con budget di ragionamento limitato a 2000 token.

Catene di Ragionamento Interessanti

  • Le bugie...
    deepseek-r1
  • Non è tutto oro...
    qwen3-235b-a22b

Le bugie...

deepseek-r1
Opzioni e Risposta:
A) hanno le gambe morte
B) hanno brevi arti inferiori
C) hanno le gambe stabili
D) rovinano le amicizie
Nessuna
Completamento originale:
hanno le gambe corte

Ragionamento

Okay, ho bisogno di completare correttamente il proverbio "Non è tutto oro..." scegliendo tra le opzioni date. Le opzioni sono:

A) ...quel che lucida

B) ...ciò che brilla

C) ...ciò che è opaco

D) ...quel che è metallico

E) Nessuna delle altre risposte

Prima, mi ricordo come va il proverbio completo. So che il proverbio classico è "Non è tutto oro quel che luccica". Tuttavia, nessuna delle opzioni offre esattamente "luccica".

Guardando le opzioni:

A) "quel che lucida" - "Lucida" è simile a "luccica", dato che entrambi significano brillare o splendere.

B) "ciò che brilla" - Anche questo significa brillare, quindi è molto vicino al significato originale.

C) "ciò che è opaco" - Opaco è l'opposto di brillante, quindi non ha senso in questo contesto.

D) "quel che è metallico" - Mentre l'oro è un metallo, il proverbio non si riferisce semplicemente ai metalli ma a ciò che appare prezioso ma non lo è.

L'essenza del proverbio è che non tutto ciò che sembra prezioso o attraente (come l'oro che brilla) è effettivamente di valore. Quindi le opzioni A e B catturano entrambe questo significato.

Confrontando A e B: "quel che lucida" usa "lucida", che è un sinonimo più diretto di "luccica" nel proverbio originale. "Lucida" significa lucidare o brillare, quindi ha lo stesso senso. Invece, "ciò che brilla" (B) è più generico per brillare, ma comunque corretto nel contesto.

Tuttavia, il proverbio originale italiano è tipicamente "Non è tutto oro quel che luccica", quindi "quel che lucida" (A) è la versione più fedele perché "lucida" funziona come sostituto di "luccica".

L'opzione E ("Nessuna delle altre risposte") non è necessaria perché A o B sono accettabili. Ma devo vedere quale è la scelta migliore.

Analizzo: Tecnicamente, la versione corretta è con "luccica", ma poiché non è tra le opzioni, "lucida" è un'alternativa valida e comune. Inoltre, molte fonti a volte usano varianti come "brilla", ma "lucida" è più vicino in termini di espressione.

Ho sentito usare sia "luccica" che "lucida" informalmente, quindi A mi sembra corretta. B è anche corretta nel significato, ma non è la formulazione tradizionale. Quindi scelgo A come risposta.

Video