Younès Loulidi / FAQ, Insight
04/07/22 09:18

Le projet open source BLOOM et le language modelling

Le projet BLOOM est né de la collaboration de plus de 1000 chercheurs issus de plus de 250 universités. Ce projet de LLM (Large Language Models) a pour but de démocratiser l’accès à cette technologie: il met à disposition de la communauté scientifique la puissance de calcul du “Jean Zay supercomputer” (IDRIS-CNRS, Université Paris-Saclay à Orsay dans le sud de Paris) pour l’entraînement d’un modèle d’intelligence artificielle. Dans cet article, nous répondrons à plusieurs questions : qu’est ce qu’un modèle LLM ? Qui sont les principaux acteurs de cette technologie ? Et quelle est la valeur ajoutée du projet Bloom ?

Le language modelling est une discipline des statistiques et de l’intelligence artificielle qui consiste à prédire un mot, ou une phrase, en fonction du contexte textuel donné par l’utilisateur. Généralement, l’objectif n’est pas simplement de prédire, mais plutôt de construire un modèle statistique spécifique à un contexte exprimé en langage naturel pour nous permettre de résoudre des problèmes comme la génération de texte, la classification de texte ou alors la réponse automatique à des questions. Tout cela se place dans le domaine du NLP (traitement du langage naturel ou Natural Language Processing).

Il existe plusieurs méthodes pour la construction de modèles de la sorte; toutes se basent sur la constitution d’un corpus de texte, ensuite, plusieurs stratégies existent pour entraîner la machine. Une des difficultés de cette discipline est l’exigence en capacité de calcul.

Prenons un exemple pour mieux comprendre, pour un texte de 1000 mots, avec 450 mots uniques. L’initialisation du problème passe par la création d’une liste de vocabulaire, et chaque mot est repéré par sa position dans cette liste. Pour un court texte de 1000 mots, c’est une matrice 1000x450 que l’on passe à l’algorithme. On comprend donc bien la difficulté de construire des modèles de langues à taille industrielle. Cette complexité crée une incapacité pour les structures disposants de peu de moyens d’effectuer de la recherche sur ce genre de technologies. On parle de problème NP-complet car la taille des traitements augmente exponentiellement avec le nombre de données (mots uniques et taille du texte).

Qui sont les acteurs majeurs de cette technologies ?

Une grande majorité des acteurs de ce domaine produisent des modèles qui ne sont pas totalement Open source. En effet, il existe une grande valeur ajoutée à la construction de ce modèle, et donc les entreprises préfèrent proposer des services payants, et gardent jalousement leurs données d'entrainement.

Un des modèles de langages les plus connus est celui développé par Google en 2018 du nom de BERT. C’est un modèle de 100 milliards de paramètres (variables qui déterminent la façon dont les données d'entrée sont transformées en résultats souhaités) dont l’utilisation est Open source, mais qu’il faut prendre tel quel. Il n’est pas possible pour les chercheurs, ou les passionnés d’utiliser la stratégie d’entraînement de BERT sur des bases de données de grande envergure parce que c’est simplement trop exigeant. En 2019, à la publication de ce modèle, Google déclare que BERT est sa plus grande avancée scientifique de ces 5 dernières années.

Un autre géant du langage modelling est le modèle GTP-3 de l’entreprise ‘OpenAI'. C’est un modèle de 175 milliards de paramètres publié le 28 mai 2020. L’objectif de l’entreprise est à terme de produire un outil commercialisable, mais une version du modèle en API est disponible gratuitement pour ceux qui veulent le tester.

Aussi, il existe des librairies comme ‘nltk’, ou ‘spacy’, qui ont des modèles très simples, et facilement téléchargeables, mais peu performants. L’objectif de ces librairies est plus de mettre en place des frameworks d’entraînement pour pouvoir produire des modèles en local, facilement industrialisables.

Le projet Bloom en quelques mots

Contrairement à d'autres grands modèles de langage plus connus, tels que GPT-3 d'OpenAI et BERT de Google, BLOOM est conçu pour être aussi transparent que possible, les chercheurs partageant des détails sur les données d’apprentissage, les défis de son développement et la manière dont ils ont évalué ses performances. GTP-3 et Google n'ont pas partagé leur code ni mis leurs modèles à la disposition du public, et les chercheurs externes comprennent très peu comment ces modèles sont entraînés.

Voici un aperçu de l'étendu des données utilisées, et les langues et langages que BLOOM essaye de modéliser :

Les données d’entraînement contiennent une large base de données de code, ce qui permet de générer automatiquement du code, dans plusieurs langages de programmation en écrivant des phrases en langage naturel (comme Github Copilot), et c’est aussi, pour des langues comme l’espagnol et l’arabe, le seul LLM de cette taille. La facilité d'accès du modèle semble être son argument le plus séduisant. Maintenant qu'il est en ligne, tout le monde peut le télécharger et le manipuler gratuitement sur le site Web de Hugging Face.

Les utilisateurs peuvent choisir parmi une sélection de langues, puis saisir des demandes pour que BLOOM effectue des tâches telles que la rédaction de poèmes, la traduction ou le résumé de textes, ou encore l'écriture de codes de programmation. L'imagination est en réalité la seule limite, puisque les développeurs d'IA peuvent utiliser le modèle comme base pour créer leurs propres applications. Avec 176 milliards de paramètres , il est plus grand que GPT-3 d'OpenAI, qui compte 175 milliards de paramètres, BigScience, la startup à l’origine de l’initiative, affirme que le modèle offre des niveaux de précision similaires à ceux de ses concurrents, tout en étant complètement accessible.

Donc voila ce qui, à mon sens, permet à BLOOM de se démarquer :

Technologie accessible: L’initiative fait tout son possible pour que les résultats de ses recherches et de ses technologies soient facilement interprétables et expliqués au grand public (explainable AI).

Ouverture et philosophie dans la pratique de l'intelligence artificielle : En plus d’être à la pointe de la technologie dans son domaine, l’initiative discute de problématiques légales, éthiques et philosophiques. Les membres de l’entreprise BigScience ont publié une charte éthique (dont ils sont signataires) très intéressante qui aborde des problématiques contemporaines.

BigScience et BLOOM sont considérés, par la communauté, comme étant la tentative la plus notable de faire tomber toutes les barrières que les grandes entreprises ont érigées au cours de la dernière décennie dans le domaine de l'IA. BLOOM n'est pas le premier LLM de cette taille à être Open source. Meta, Google et d'autres ont déjà mis quelques modèles en libre accès, ce n’est cependant pas ce que ces entreprises offrent de mieux, dans une approche privilégiant la monétisation des données et des modèles. BLOOM apparaît donc comme un modèle intéressant et une initiative à soutenir. Leurs efforts constituent, dans l'édifice d'un monde de l'intelligence artificielle open source, une perspective très encourageante pour la suite !

References

Inside a radical new project to democratize AI. MIT Technology Review. https://www.technologyreview.com/2022/07/12/1055817/inside-a-radical-new-project-to-democratize-ai/. Published 2022.
Romero A. BLOOM Is the Most Important AI Model of the Decade. Thealgorithmicbridge.substack.com. https://thealgorithmicbridge.substack.com/p/bloom-is-the-most-important-ai-model. Published 2022.
Srinivas A. BLOOM – The new open-source LLM. BLOCKGENI. https://blockgeni.com/bloom-the-new-open-source-llm/. Published 2022.
Krishna S. BigScience’s open-source LLM BLOOM has landed. Analytics India Magazine. https://analyticsindiamag.com/bigsciences-open-source-llm-bloom-has-landed/. Published 2022.
Repository for the project : https://huggingface.co/bigscience/bloom

Partager cet article :

Lien copié