Que veut dire « libre » (ou « open source ») pour un grand modèle de langage ? de Stéphane Bortzmeyer

Auteur : Clément Bida

1. Identification

Contexte éditorial :
Framablog est le blog de Framasoft, il a été créé en septembre 2006 soit deux ans après la création de l'association Framasoft. Il a pour vocation de créer du contenu autour de des logiciels libres. Depuis sa création le blog a eu l'occasion de recevoir plusieurs spécialistes dans divers domaines liés à la "culture libre". Il est aussi arrivé que les invités abordent d'autre sujets de société comme l'urbanisme, l'économie, le développement durable... (source : https://framasoft.org/fr/).

Contexte auctorial :
Stéphane Bortzmeyer est un informaticien pionnier dans le domaine du chiffrement des échanges numériques. Il est notamment reconnu dans le domaine des technologies de l’information et plus précisément concernant la sécurité et les protocoles de communication.
Il est également un auteur et un contributeur actif dans le domaine de l'informatique, apportant des connaissances sur une gamme variée de sujets, tels que les modèles de langage. Sa notoriété découle de son expertise technique et de sa capacité à rendre des concepts complexes accessibles au plus grand nombre. (sources : https://fr.wikipedia.org/wiki/St%C3%A9phane_Bortzmeyer, https://www.linkedin.com/in/sbortzmeyer/?originalSubdomain=fr)

2. Analyse du texte

a) Confusion entre la notion de logiciel libre et celui d'open-source

  • Problématique : Pourquoi utilise-t-on la notion d'open-source ?
  • Contexte : En réalité ces deux notions sont équivalentes, mais pour comprendre leur genèse il faut revenir 30 ans en arrière. Alors qu'il existait la notion de logiciel libre qui faisait plus ou moins l'unanimité, un groupe de personne a décidé en 1998 de désormais utiliser le terme "logiciel open-source".
  • Hypothèse : Ce changement serait purement "marketing" puisque ces deux mots ont la même définition. Le but étant de rendre cette notion plus abordable et plus "sympathique" pour in fine permettre de l'utiliser quitte à faire du libre-washing.
  • Résultat : Bien sur ce changement ne s'est pas fait en un jour mais aujourd'hui il est fréquent d'entendre parler de logiciel open-source. On remarque que de grandes entreprises comme Meta ont utilisé la notion d'open source pour vendre leurs LLM.

b) Les LLM et la notion de liberté

  • Problématique : Les LLM sont ils libres ?
  • Contexte : Avec l'émergence de nouveaux LLM et notamment l'arrivée de chat GPT en novembre 2022, il est important de se demander s'ils peuvent véritablement être libres.
  • Hypothèses : Nous avons pour cette question deux hypothèses développées par l'auteur :
    1. Beaucoup de LLM se définissent comme open source pour profiter du flou autour de cette notion. Cependant, la plupart ne sont pas libres car meme si contrairement à une application, il peut être compliqué de déterminer si un LLM est libre ou pas certaines données restent obscures. En effet on peut certes télécharger certains LLM sur nos ordinateurs (c'est souvent l'argument avancé pour justifier qu'il est open source) mais nous n'avons pas pour autant accès à des données fondamentales pour comprendre son fonctionnement. C’est notamment le cas des BDD utilisées pour entrainer les LLM, qui sont pour la plupart tenues secrètes.
    2. Lorsque vous utilisez par exemple chat GPT, l’application n’est pas installée sur votre ordinateur. Cela signifie que l’interface avec laquelle vous discutez est reliée via un cloud aux serveurs d’openAI. De nombreuses questions liées à cette délocalisation peuvent alors émerger... La plus importante étant bien sur la gestion de nos données ! Cela vient encore une fois contredire la thèse de LLM libres puisque certains choix des développeurs tel que la censure sont irréversibles.
  • Résultat : Dans la définition même d'un logiciel libre l'utilisateur doit pouvoir le modifier à sa guise ce qui n'est vraisemblablement pas le cas ici. On peut donc constater que les LLM qui se déclarent comme open-source font du libre washing, une manière de tromper l’utilisateur.

c) Le cas d'un modèle de language libre

  • Problématique : Un modèle de language libre peut il émerger ?
  • Contexte : Dans un monde ou tout le monde veille à l'usage de ses données personnelles et ou l'Europe légifèrent dans ce sens, il convient de se demander si un LLM libre peut fonctionner correctement (d'un point de vue technique).
  • Hypothèse : Il existe des modèles de language complètement libres comme le modèle Falcon donc il est possible en pratique d'en créer mais la réelle question est de savoir si ces modèles sont capables de rivaliser avec des LLM. Pour rendre un modèle performant, il est nécessaire de l’entraîner avec des quantités astronomiques de données. Or ceux qui maîtrisent le mieux ces données et qui ont surtout les moyens d’y accéder sont les géants de tech (Meta, OpenAI, Google...). À titre d’exemple le développement du LLM bloom a nécessité une bonne partie d’un super calculateur. (bloom est "le plus gros modèle de langue multilingue entraîné de manière complètement ouverte et transparente", indique le CNRS).
    Un autre problème persiste, en admettant qu’il existe un LLM performant et libre comment pourrait il fonctionner ? L’utilisation actuelle des LLM via un cloud rend leur utilisation extrêmement simple mais si nous devions faire tourner le LLM sur un ordinateur classique il y a fort a parier que cela ne fonctionnerait pas. Les ordinateurs ne seraient pas assez puissant et quand bien même ils le seraient cela aurait un impact significatif sur leur batterie.
  • Résultat : Il sera difficile de créer des LLM libres au vu des problématiques imposées par leur fonctionnement. Il faudra donc se contenter de modèles plus petits et donc moins performants.

3. Mise en perspective

Une critique des LLM

Suite à la lecture de cet article, il est aisé de constater que l'auteur est très critique envers les LLM. D'après lui, il est presque impossible de créer un LLM libre qui n'aurait pas de face "cachée". Les faits lui donnent raison car on ne sait pas quel traitement est réservé à nos données une fois qu'elles arrivent sur les serveurs des grandes entreprises de la tech. Sont elles analysées ? Stockées ? Revendues ? Nous n'en savons rien.
Cet article est donc un bon moyen de nous interroger sur le côté éthique de ces LLM et de là en découle notre futur. C'est pour cela que l'auteur est si impliqué sur cette question.
Comme évoqué par l'auteur il y a aussi un problème de véracité de l'information générée, lorsque l'on utilise par exemple ChatGPT d'OpenAI, on se rend compte qu'il n'y a pas d'impartialité dans l'information donnée. Cela montre bien que les créateur de ces LLM les ont "entrainées" avec des données qu'ils avaient eux mêmes sélectionnées sans bien sur le notifier sur leurs sites.

Un article à point de vue unique

L'arrivée des LLM à grande échelle représente aussi une réelle innovation et cela pourrait avoir des répercutions positives dans de multiples secteurs. L'auteur n'évoque pas dans son article les avantages que pourraient amener les LLM sûrement car ce blog est ouvertement contre le capitalisme de surveillance et les GAFAM (qui développent tous des LLM).
Sans doute qu'une voie intermédiaire est possible en convainquant les gouvernements d'imposer à ces géants plus de transparence afin de rendre cette formidable innovation pérenne.

4. Liste de citations

  • Mais qui produit ces modèles ?
  • Les LLM n’ont pas de corps (comme Scarlett Johansson dans le film « Her ») et ne sont donc pas faciles à illustrer.
  • certains choix sont irréversibles (par exemple des choix de censure)
  • Beaucoup de commentateurs et de gourous ont simplement relayé la propagande de Meta
  • Non seulement il faut télécharger des téra-octets sur son disque dur, et les stocker, mais il faut des dizaines d’ordinateurs rapides équipés de GPU pour créer le modèle.

5. Glossaire

  • Large Language Model ou LLM : C'est un type de logiciel informatique utilisant l'intelligence artificielle qui a été entraîné sur de vastes quantités de données pour comprendre et générer du langage naturel de manière sophistiquée.
  • Libre-washing : le libre-washing est une tactique visant à donner l'impression qu'une entreprise soutient activement le logiciel libre, mais qui ne le fait pas de manière sincère. Cela peut être perçu par l'utilisateur comme une tromperie.
  • Logiciel libre : Un logiciel libre est un logiciel dont l'utilisation, l'étude, la modification, la duplication et la diffusion sont universellement autorisées sans contrepartie financière.

6. Lectures associées