La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle
Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.
Publié le 17-04-2024 par François Manens
Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.
Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.
Crise de l'évaluation des modèles d'IA
Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot
Lire la suiteLes dernières actualités
Publié le 02/05/2024 à 10:42:31
Microsoft va investir des sommes gigantesques dans l'IA et le cloud en Asie du Sud-EstPublié le 02/05/2024 à 10:42:27
E-commerce : les sites chinois comme Shein ou Temu font de l'ombre aux plateformes européennes de commerce en lignePublié le 02/05/2024 à 10:42:23
Japon : la faiblesse du yen fait le bonheur des touristesPublié le 02/05/2024 à 10:42:19
Crise de l'agriculture : réunion cruciale entre Emmanuel Macron et les syndicats agricolesPublié le 02/05/2024 à 10:42:15
Malgré le rebond de l'inflation, la Fed maintient ses taux échangés et écarte une haussePublié le 02/05/2024 à 10:42:11
Le système de santé français en quête de remèdesPublié le 02/05/2024 à 10:42:10
Malgré la chute des ventes de Dacia, Renault progresse plus vite que Stellantis en FrancePublié le 02/05/2024 à 10:42:06
Sous-marins : les 13 campagnes à l'exportation de Naval GroupPublié le 02/05/2024 à 10:42:02
Investissements étrangers : la France reste championne d’Europe de l’attractivité économiquePublié le 02/05/2024 à 10:41:55
Construction en bois : comment la France veut rattraper son retard en 2030Publié le 01/05/2024 à 10:42:11
Fermeture de l'A13 : les covoitureurs ne paieront que la moitié du péage de l'A14Publié le 01/05/2024 à 10:42:11
Vers l'irréversibilité de la construction du porte-avions de nouvelle générationPublié le 01/05/2024 à 10:42:11
Pourquoi la trajectoire de 1% de croissance promise par le gouvernement est possiblePublié le 01/05/2024 à 10:42:07
Meta visé par Bruxelles : le crash-test du DSA contre l'ingérence étrangère à la veille des électionsPublié le 01/05/2024 à 10:42:02
L’IA, vorace en énergie, va-t-elle faire flamber la facture énergétique ?Publié le 01/05/2024 à 10:42:02
Arnaud Lagardère ou la longue chute d’un héritier du capitalisme françaisPublié le 01/05/2024 à 10:42:01
Nucléaire : EDF et le sud-coréen KHNP en finale pour le juteux marché des EPR tchèquesPublié le 01/05/2024 à 10:42:01
Réformes : ce que contient la feuille de route du gouvernement envoyée à Bruxelles pour 2024Publié le 01/05/2024 à 10:41:56
Les vins de Bordeaux en croisade contre « les prix inadmissibles »Publié le 01/05/2024 à 10:41:53
Automobile : l'Etat compte s'immiscer dans les tensions entre constructeurs et fournisseurs