L'IA est-elle compatible avec le Libre ?
Ce billet a également été publié sur linuxfr : consulter le lien pour les commentaires.
(j’ai l’impression que mon point de vue a été assez mal compris, sans doute faudra-t-il que je détaille dans un second billet, mais je n’ai pas le temps pour l’instant)
La question me turlupine depuis un bon bout de temps et j’aimerais initier une discussion parce que je trouve que la communauté francophone reste encore très discrète sur ce sujet pourtant important. Je ne prétends évidemment pas répondre de façon définitive, mais juste indiquer où en est ma propre réflexion.
Ça a commencé fin novembre avec la keynote Libre, Open source: de VLC à l’IA, et futur de JB Kempf à Capitole du Libre où après une première partie amusante et agréable, JB s’est soudain mis à nous expliquer qu’il fallait que nous (les libristes) fassions de l’IA. Le problème avec JB c’est qu’on ne sait pas toujours lorsqu’il est sérieux ou pas, et qu’il s’en sort en nous laissant libres (!) d’interpréter ses propos : troll, il nous invite à dire qu’on fait de l’IA alors que ça n’en est pas vraiment, juste pour obtenir des subventions ; et il a dû bien s’amuser des réactions à l’annonce que VLC utiliserait désormais l’IA pour les sous-titres des vidéos. Mais beaucoup plus sérieusement, enfin moi j’ai vraiment pris ça sérieusement, il nous a aussi dit en gros la même chose que notre pénible résident : si on reste des herbivores, vous comprenez, les carnivores (ceux qui font de l’IA) gagneront.
Il y a eu ensuite les campagnes de dons de LQDN et de Framasoft autour de l’IA ; autant celle de La Quadrature était claire et nette, autant celle de Framasoft m’a assez perturbée : on informe sur l’IA mais on dit aussi qu’on va expérimenter l’IA “pour voir”. Et aux personnes qui protestent on répond gentiment qu’on est bien au courant des problèmes et que c’est justement pour en discuter qu’on fait ça.
À noter que Framasoft comme VLC ont choisi de s’appuyer sur Whisper, d’OpenAI1. Pour rappel, OpenAI, actuellement, c’est à 49% Microsoft. Parmi les premiers promoteurs d’OpenAI, outre Sam Altman, il y a Elon Musk et Peter Thiel. Des techbros libertariens (si vous ne connaissez pas bien Peter Thiel ou plus généralement qui sont les techbros, je vous conseille Brotopia, c’est passionnant).
À une époque pas si lointaine, on nous expliquait que le Libre, c’est l’open source avec l’éthique (aka la Philosophie du Libre) en plus. J’ai l’impression que certains s’y retrouvent de moins en moins dans cette distinction.
Alors tentons de (re)poser rapidement quelques bases.
De quoi l’IA est-elle le nom
Dans la dénomination “Intelligence Artificielle”, rien ne va.
Sauf peut-être si on prend l’adjectif “artificiel” dans le sens de “non authentique, de surface”, et “intelligence” dans l’acception angloaméricaine utilisée dans l’acronyme CIA (Central Intelligence Agency) : quelque chose qui renseigne et contrôle.
Le souci, c’est que le pouvoir des mots est difficilement contournable. Et que même si on sait ce qu’il se cache derrière l’IA, le fait même d’utiliser le mot “intelligence” oriente notre pensée, nous amène à des associations biaisées. D’autant que le fantasme d’IA véritablement intelligente, consciente, à notre image, whatever, n’est jamais très loin. Même si on sait pertinemment que la mémoire d’un ordinateur n’a que peu de choses à voir avec la mémoire animale (la nôtre), ou que les réseaux neuronaux n’ont à peu près que le nom en commun avec l’entité constituée par nos propres réseaux de neurones (aka notre cerveau).
À la place, on pourrait parler de LLM, de perroquets stochastiques ou de SRAS (Systèmes Résultant d’Apprentissage Stochastique). Ce n’est pas le vocabulaire qui manque.
Et cela permettrait déjà de faire clairement la distinction entre les différentes formes de techniques qui se cachent derrière ce terme à la fois fourre-tout et fallacieux d’IA2.
Pour en revenir à la question
On l’aura compris, le fait même de parler d’IA dans un projet libre est pour moi déjà un problème.
Comme le dit Ali Alkhatib3 :
AI is an ideological project to shift authority and autonomy away from individuals, towards centralized structures of power. Projects that claim to “democratize” AI routinely conflate “democratization” with “commodification”.
L’idéologie derrière l’acronyme IA, est exactement celle-là : nous ôter notre pouvoir de décision, nous déposséder de nos compétences décisionnelles, pour les confier à un SRAS (voire à un simple algorithme) via (très généralement) un SaaSS (Service as a Software Substitute)4
Cela me pose donc un gros problème que des structures en faveur du Libre cèdent à la facilité (au buzz ? à la provocation ?) de parler d’IA pour qualifier les outils qu’elles utilisent.
VLC n’utilise pas l’IA. Il utilise le logiciel open source Whisper, qui a été entraîné par des moyens, il me semble, inaccessibles à une personne lambda en termes de reproductibilité. Je ne connais pas les biais de Whisper. Reconnaît-il les voix féminines aussi bien que les masculines ? Les voix avec accent ? Quelles ont été les petites mains qui ont dû œuvrer (et qui œuvrent probablement encore) pour le corriger et l’amener aux niveaux de performance actuels ? Quels ressources énergétiques ont été nécessaires ?
Je comprends parfaitement l’utilité d’un tel logiciel pour permettre des traductions automatiques, je comprends tout particulièrement l’utilité en termes d’accessibilité, et je comprends qu’il n’existe pas vraiment d’alternative à la hauteur (à part peut-être le projet Scribe5, qui utilise Vosk6 : mieux ou pas mieux en termes d’éthique, je veux bien vos avis sur la question). Mais qu’on arrête de nous rouler dans la farine en parlant d’IA ou de Libre. Ce n’est pas libre, puisqu’on ne contrôle pas du tout la façon dont ce logiciel a été entraîné et qu’il est matériellement impossible (sauf à avoir les capacités de stockage et de calcul d’OpenAI) à reproduire soi-même.
En ce qui concerne Lokas de Framasoft (qui utilise aussi Whisper, donc) je suis encore plus perplexe car le rapport utilité/éthique de la proposition me paraît fortement questionnable. Même si je comprends que l’idée est de fournir un logiciel à peu près safe afin que les personnes qui auraient besoin d’un tel outil ne soient pas obligées d’y laisser toutes leurs données personnelles, je ne pense pas que développer un outil qui habitue à enregistrer l’intégralité de réunions via un smartphone soit une bonne idée.
En tout cas, ce n’est toujours ni libre, ni “de l’IA”.
Parler d’IA, même au second degré, c’est dérouler le tapis rouge devant une idéologie qu’il faudrait au contraire dézinguer complètement.
Pour répondre à ce stade de ma réflexion à la question posée, l’IA ne peut pas être compatible avec le Libre, car ce n’est pas en soi une technologie, ni même un ensemble de techniques clairement définies. C’est une idéologie, en totale contradiction avec la philosophie du Libre.
-
Ce n’est pas dit dans la page wikipédia française, mais si on consulte l’anglaise, on peut y lire ceci : According to a NYT report, in 2021 OpenAI believed they exhausted sources of higher-quality data to train their large language models and decided to complement scraped web text with transcriptions of YouTube videos and podcasts, and developed Whisper to solve this task. ↩︎
-
Pour un excellent historique et appréhender de façon à la fois pédagogique et détaillée les différentes formes d’IA, je conseille vivement la lecture de Melanie Mitchell - Artificial Intelligence: A Guide for Thinking Humans. J’ai également commencé ici une page regroupant des ouvrages et articles permettant d’outiller la réflexion au sujet de l’IA. ↩︎
-
On écoutera également avec intérêt l’épisode du podcast Tech Won’t Save Us qui lui est consacré ↩︎
-
À ce sujet on relira avec profit cette page : Using SaaSS causes the same injustices as using a nonfree program: they are two paths to the same bad place. Take the example of a SaaSS translation service: The user sends text to the server, and the server translates it (from English to Spanish, say) and sends the translation back to the user. Now the job of translating is under the control of the server operator rather than the user. ↩︎
Publié le 21/01/2025
Dernière édition le 21/01/2025