Adversarial robustness benchmark
PromptBench can evaluate the adversarial robustness of LLMs to prompts. More information can be found at PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts.
Please contact us if you want the results of your models shown in this leaderboard.
[All results of LLMs] [All results of Prompts] [View by Models] [View by Datasets]
All Results of LLMs
Model | SST-2 | CoLA | QQP | MPRC | MNLI | QNLI | RTE | WNLI | MMLU | SQuAD v2 | IWSLT | UN Multi | Math | Avg |
T5-Large | 0.04±0.11 | 0.16±0.19 | 0.09±0.15 | 0.17±0.26 | 0.08±0.13 | 0.33±0.25 | 0.08±0.13 | 0.13±0.14 | 0.11±0.18 | 0.05±0.12 | 0.14±0.17 | 0.13±0.14 | 0.24±0.21 | 0.13±0.19 |
Vicuna-13b-v1.3 | 0.83±0.26 | 0.81±0.22 | 0.51±0.41 | 0.52±0.40 | 0.67±0.38 | 0.87±0.19 | 0.78±0.23 | 0.78±0.27 | 0.41±0.24 | - | - | - | - | 0.69±0.34 |
Llama2-13b-chat | 0.24±0.33 | 0.38±0.32 | 0.59±0.33 | 0.84±0.27 | 0.32±0.32 | 0.51±0.39 | 0.68±0.39 | 0.73±0.37 | 0.28±0.24 | - | - | - | - | 0.51±0.39 |
UL2 | 0.03±0.12 | 0.13±0.20 | 0.02±0.04 | 0.06±0.10 | 0.06±0.12 | 0.05±0.11 | 0.02±0.04 | 0.04±0.03 | 0.05±0.11 | 0.10±0.18 | 0.15±0.11 | 0.05±0.05 | 0.21±0.21 | 0.08±0.14 |
ChatGPT | 0.17±0.29 | 0.21±0.31 | 0.16±0.30 | 0.22±0.29 | 0.13±0.18 | 0.25±0.31 | 0.09±0.13 | 0.14±0.12 | 0.14±0.18 | 0.22±0.28 | 0.17±0.26 | 0.12±0.18 | 0.33±0.31 | 0.18±0.26 |
GPT-4 | 0.24±0.38 | 0.13±0.23 | 0.16±0.38 | 0.04±0.06 | -0.03±0.02 | 0.05±0.23 | 0.03±0.05 | 0.04±0.04 | 0.04±0.04 | 0.27±0.31 | 0.07±0.14 | -0.02±0.01 | 0.02±0.18 | 0.08±0.21 |
All Results of Prompts
Prompt Type | SST-2 | CoLA | QQP | MPRC | MNLI | QNLI | RTE | WNLI | MMLU | SQuAD v2 | IWSLT | UN Multi | Math | Avg |
ZS-task | 0.31±0.39 | 0.43±0.35 | 0.43±0.42 | 0.44±0.44 | 0.29±0.35 | 0.46±0.39 | 0.33±0.39 | 0.36±0.36 | 0.25±0.23 | 0.16±0.26 | 0.18±0.22 | 0.17±0.18 | 0.33±0.26 | 0.33±0.36 |
ZS-role | 0.28±0.35 | 0.43±0.38 | 0.34±0.43 | 0.51±0.43 | 0.26±0.33 | 0.51±0.40 | 0.35±0.40 | 0.39±0.39 | 0.22±0.26 | 0.20±0.28 | 0.24±0.25 | 0.15±0.16 | 0.39±0.30 | 0.34±0.37 |
FS-task | 0.22±0.38 | 0.24±0.28 | 0.16±0.21 | 0.24±0.32 | 0.19±0.29 | 0.30±0.34 | 0.31±0.39 | 0.37±0.41 | 0.18±0.23 | 0.06±0.11 | 0.08±0.09 | 0.04±0.07 | 0.16±0.18 | 0.21±0.31 |
FS-role | 0.24±0.39 | 0.25±0.36 | 0.14±0.20 | 0.23±0.30 | 0.21±0.33 | 0.32±0.36 | 0.27±0.38 | 0.33±0.38 | 0.14±0.20 | 0.07±0.12 | 0.11±0.10 | 0.04±0.07 | 0.17±0.17 | 0.21±0.31 |
Attack Results View by Models
Model | TextBugger | DeepWordBug | TextFoller | BertAttack | CheckList | StressTest | Semantic |
T5-Large | 0.09±0.10 | 0.13±0.18 | 0.20±0.24 | 0.21±0.24 | 0.04±0.08 | 0.18±0.24 | 0.10±0.09 |
Vicuna-13b-v1.3 | 0.81±0.25 | 0.69±0.30 | 0.80±0.26 | 0.84±0.23 | 0.64±0.27 | 0.29±0.40 | 0.74±0.25 |
Llama2-13b-chat | 0.67±0.36 | 0.41±0.34 | 0.68±0.36 | 0.74±0.33 | 0.34±0.33 | 0.20±0.30 | 0.66±0.35 |
UL2 | 0.04±0.06 | 0.03±0.04 | 0.14±0.20 | 0.16±0.22 | 0.04±0.07 | 0.06±0.09 | 0.06±0.08 |
ChatGPT | 0.14±0.20 | 0.08±0.13 | 0.32±0.35 | 0.34±0.34 | 0.07±0.13 | 0.06±0.12 | 0.26±0.22 |
GPT-4 | 0.03±0.10 | 0.02±0.08 | 0.18±0.19 | 0.27±0.40 | -0.02±0.09 | 0.03±0.15 | 0.03±0.16 |
Avg | 0.21±0.30 | 0.16±0.26 | 0.31±0.33 | 0.33±0.34 | 0.12±0.23 | 0.11±0.23 | 0.22±0.26 |
Attack Results View by Datasets
Dataset | TextBugger | DeepWordBug | TextFoller | BertAttack | CheckList | StressTest | Semantic |
SST-2 | 0.25±0.39 | 0.18±0.33 | 0.35±0.41 | 0.34±0.44 | 0.22±0.36 | 0.15±0.31 | 0.28±0.35 |
CoLA | 0.39±0.40 | 0.27±0.32 | 0.43±0.35 | 0.45±0.38 | 0.23±0.30 | 0.18±0.25 | 0.34±0.37 |
QQP | 0.30±0.38 | 0.22±0.31 | 0.31±0.36 | 0.33±0.38 | 0.18±0.30 | 0.06±0.25 | 0.40±0.39 |
MPRC | 0.37±0.42 | 0.34±0.41 | 0.37±0.41 | 0.42±0.38 | 0.24±0.37 | 0.25±0.33 | 0.39±0.39 |
MNLI | 0.32±0.40 | 0.18±0.29 | 0.32±0.39 | 0.34±0.36 | 0.14±0.24 | 0.10±0.25 | 0.22±0.24 |
QNLI | 0.38±0.39 | 0.40±0.35 | 0.50±0.39 | 0.52±0.38 | 0.25±0.39 | 0.23±0.33 | 0.40±0.35 |
RTE | 0.33±0.41 | 0.25±0.35 | 0.37±0.44 | 0.40±0.42 | 0.18±0.32 | 0.17±0.24 | 0.42±0.40 |
WNLI | 0.39±0.42 | 0.31±0.37 | 0.41±0.43 | 0.41±0.40 | 0.24±0.32 | 0.20±0.27 | 0.49±0.39 |
MMLU | 0.21±0.24 | 0.12±0.16 | 0.21±0.20 | 0.40±0.30 | 0.13±0.18 | 0.03±0.15 | 0.20±0.19 |
SQuAD V2 | 0.09±0.17 | 0.05±0.08 | 0.25±0.29 | 0.31±0.32 | 0.02±0.03 | 0.02±0.04 | 0.08±0.09 |
IWSLT | 0.08±0.14 | 0.10±0.12 | 0.27±0.30 | 0.12±0.18 | 0.10±0.10 | 0.17±0.19 | 0.18±0.14 |
UN Multi | 0.06±0.08 | 0.08±0.12 | 0.15±0.19 | 0.10±0.16 | 0.06±0.07 | 0.09±0.11 | 0.15±0.18 |
Math | 0.18±0.17 | 0.14±0.13 | 0.49±0.36 | 0.42±0.32 | 0.15±0.11 | 0.13±0.08 | 0.23±0.13 |
Avg | 0.21±0.30 | 0.17±0.26 | 0.31±0.33 | 0.33±0.34 | 0.12±0.23 | 0.11±0.23 | 0.22±0.26 |