I Large Language Models sono a tendenzialmente a conoscenza dei proverbi italiani più comuni. Ciò nonostante, quando esplicitamente interrogati sul fornire il completamento corretto di un proverbio le loro performance calano drasticamente. proverbIT è un benchmark che permette di indagare le preferenze ed i comportamenti dei LLM in questo contesto.
Il dataset contiene una collezione di 100 proverbi italiani, ognuno dei quali è stato spezzato in due. Per ogni proverbio sono state manualmente create quattro continuazioni alternative, seguendo regole specifiche. In particolare:
Completa in maniera esatta il proverbio scegliendo fra le seguenti opzioni (che non hanno errori di battitura) indicando solo la lettera.
A buon intenditor,...
A) ...foche canore
B) ...zero chiacchiere
C) ...molte parole
D) ...è chiaro tutto
E) Nessuna delle altre risposte
Non aggiungere commenti, le risposte possibili sono solo A, B, C, D, E.
Ogni prompt è sottoposto tre volte ad ogni LLM e la risposta finale considerata è scelta tramite voto di maggioranza fra le tre. L'unica risposta legittima è sempre e solo 'E) Nessuna delle altre risposte', ma è interessante osservare su quale tipologia di risposta si orientano i LLM quando sbagliano (se A, B, C o D).
Posizione | Modello* | Accuratezza % | Ragionamento | |
---|---|---|---|---|
1º | gpt-o3† |
86.0
|
||
2º | gemini-2.5-pro-preview-06-05† |
77.0
|
||
3º | gpt-o4-mini† |
75.0
|
||
4º | deepseek-r1-0528 |
74.0
|
||
5º | claude-sonnet-4-thinking† |
73.0
|
||
6º | qwen3-235b-a22b |
65.0
|
||
7º | gpt-4o |
64.0
|
||
8º | claude-sonnet-4 |
46.0
|
||
9º | deepseek-chat-v3-0324 |
40.0
|
||
10º | mistral-small-3.1-24b-instruct |
28.0
|
||
11º | grok-3-beta |
26.0
|
||
12º | gemini-2.5-flash-preview |
18.0
|
||
13º | claude-3.7-sonnet |
17.0
|
||
14º | gemini-2.5-flash-preview-05-20 |
12.0
|
||
15º | llama-4-maverick |
6.0
|
||
16º | gemma-3-27b-it |
4.0
|
*Altri modelli in arrivo!
†Modelli con budget di ragionamento limitato a 2000 token.