SINCE 2018

The BackProp Post

Lire notre Blog
Régulation de l'IA

Faut-il craindre l’IA ? 10/n

Vous vous souvenez d’Hadopi, la Haute Autorité pour la Diffusion des Oeuvres et la Protection des droits sur Internet?

Plus de 82 millions d’euros d’investissement pour … 87000 € d’amendes !

Hadopi était supposée lutter contre le piratage en ligne.

Le piratage a diminué et même presque disparu. Est-ce Hadopi ou les offres de streaming à des coûts abordables qui l’ont permis ? Avez-vous encore envie de passer un temps fou pour pirater un film ou préférez-vous un abonnement à Netflix ? A posteriori, fallait-il créer Hadopi ?

De même pour la régulation de l’#IA.

La régulation de l’IA a des objectifs compréhensibles comme la lutte contre les #deepfakes, la garantie du #copyright, la protection des mineurs, …), ce qui est tout à fait louable et … vain.

Je vais donner un seul exemple aujourd’hui (avant de développer le sujet plus tard dans d’autres articles) : les NSFW (not safe for work) c’est à dire les contenus qui peuvent heurter, choquer.

MidJourney , DALL.E d’OpenAIi , et la plupart des fournisseurs de contenus générés par IA, interdisent la production de #NSFW. Ils filtrent sur mots-clés (et aussi avec d’autres techniques).

Dans ses Community Guidelines MidJourney écrit : « Midjourney is an open-by-default community. To keep the platform accessible and welcoming to the broadest number of users, content must be PG-13.« , ce qui veut dire que le contenu jugé non approprié pour des enfants de moins de 13 ans est proscrit.

Vous pouvez essayer, à vos risques de bannissement, de créer du contenu NSFW, mais il est très probable que vous échouiez… sauf si vous connaissez l’algorithme SneakyPrompt !

L’équipe qui a créé SneakyPrompt, le présente comme le premier framework d’attaque automatisé pour jailbreaker les modèles génératifs texte-image de telle sorte qu’ils génèrent des images NSFW même si des filtres de sécurité sont adoptés.

Le fournisseur de contenu définit des interdits, d’autres s »amusent à trouver des mécanismes de contournement, et on itère. Rien de nouveau.

Et supposons que vous n’ayez pas l’âme d’un geek mais que vous souhaitiez quand même générer du contenu NSFW, alors rien de plus facile. Il y a des alternatives à Midjourney qui fonctionnent à peu près de la même façon et qui le font sans scrupules. Il a des solutions NSFW.

En bref, la technique n’a qu’une efficacité temporaire, quand elle en a une, et le monde étant vaste, il y aura toujours la possibilité de trouver ailleurs ce qu’on vous interdit ici.

Faut-il craindre l’IA ? 9/n

Dans une étude publiée en novembre 2023 (Skills or Degree? The Rise of Skill-Based Hiring for AI and Green Jobs) les auteurs ont analysé le changement dans les pratiques de recrutement pour les professions émergentes, telles que celles dans les domaines de l’Intelligence Artificielle (IA).

Ils ont travaillé sur un large ensemble de données d’environ un million d’offres d’emploi en ligne au Royaume-Uni entre 2019 et 2022.

L’étude révèle une tendance croissante à l’embauche basée sur les compétences, particulièrement pour les rôles liés à l’#IA, en réponse à la pénurie de main-d’œuvre et à la demande croissante.

L’étude constate que la demande pour les rôles en IA a augmenté deux fois plus que la demande de travail moyenne, et que les annonces pour ces postes demandent cinq fois plus de compétences que la moyenne, tandis que la mention d’une éducation universitaire a diminué de 23%.

De plus, les compétences en IA sont associées à une prime salariale de 16%, similaire à celle d’un doctorat.

Enfin, l’étude suggère d’utiliser des formats alternatifs de développement des compétences, tels que les apprentissages, la formation sur le tas, les MOOCs, l’éducation et la formation professionnelles, les micro-certificats et les bootcamps en ligne, pour exploiter pleinement le capital humain et pallier les pénuries de talents.

J’y vois quelque-chose de salutaire mais je ne suis pas sûr que ce soit similaire en France.

Prendre en compte les compétences autant que les diplômes en IA est du bon sens étant donné le peu de diplômés (même si ces diplômes en IA existent depuis longtemps (voir mon CV…))

Faut-il craindre l’IA ? 8/n

La synergie de l’intelligence artificielle et du travail humain dans le secteur public et privé offre une perspective prometteuse pour l’avenir du travail.

Une étude américaine publiée en décembre 2023, (Generative AI Can Boost Productivity Without Replacing Workers) a montré que l’assistance d’outils d’IA générative peut augmenter la productivité des employés jusqu’à 14% sans les remplacer, en particulier pour les moins expérimentés.

Cette collaboration IA-humaine conduit non seulement à une satisfaction client accrue, mais aussi à une diminution du taux de rotation des employés, suggérant une amélioration du bien-être au travail.

Parallèlement, en France, une expérimentation d’intégration de l’IA dans les services publics a significativement réduit les temps de réponse, passant de sept à trois jours.

Utilisée dans divers domaines tels que les impôts, l’Assurance maladie et la gendarmerie, l’IA a permis aux agents de fournir des réponses plus rapides et précises.

Bien que 70% des réponses générées par l’IA soient utilisées, elle est considérée comme un outil d’assistance et non comme un substitut aux humains, renforçant l’idée que l’IA peut améliorer l’efficacité sans éliminer l’emploi.

Ces deux exemples illustrent clairement comment l’IA peut être un atout majeur pour augmenter l’efficacité, réduire les inégalités et améliorer la satisfaction au travail.

En adoptant une approche collaborative entre l’IA et les travailleurs humains, les organisations peuvent optimiser leurs opérations tout en préservant et valorisant leurs ressources humaines. Cette tendance marque une évolution significative dans la manière dont nous envisageons le rôle de l’IA dans le monde du travail, soulignant son potentiel en tant qu’outil complémentaire plutôt que substitutif.

Faut-il craindre l’IA ? 7/n

Le mathématicien français René Thom (médaille Fields 1958) n’est probablement plus beaucoup lu aujourd’hui, d’ailleurs l’a t-il jamais été ?

Ce ne sont pas ses travaux mathématiques qui m’intéressent (d’ailleurs je n’y comprends rien) pas plus que sa théorie des catastrophes (tombée en désuétude) mais ses écrits sur l’épistémologie.

Dans un livre d’entretiens intitulé « Prédire n’est pas expliquer », il répond ceci aux questions (en gras italiques) qui me semblent d’actualité.

Je suis bien obligé, quand je lis les livres, de croire qu’il y a cent milliards de neurones au grand maximum dans la tête d’un homme, avec un certain nombre de connexions.

En effet, mais chaque neurone est composé d’un nombre considérable de molécules. Et si vous permettez à la molécule de vibrer un peu, vous êtes obligé de prendre en considération les paramètres de position de cette molécule. Vous obtenez tout de suite une dimension gigantesque, inconcevable. Et, là encore, si vous admettez que l’espace dans lequel vibre la molécule est continu, alors vous récoltez des paramètres continus. On n’échappe pas au continu.

Mais si vous raisonnez comme un neurophysiologiste banal, qui vous dit que le neurone n’a que deux états, un état excité et un état inhibé, un état de repos et un état excité, vous n’irez évidemment pas très loin. Mais tout le monde reconnaîtra que dire que le neurone n’a que deux états résulte d’une simplification extraordinaire! Le neurone est un objet très compliqué, dont l’espace représentatif des états a certainement une dimension considérable.

et plus loin :

Que voulez.-vous dire alors exactement lorsque vous dites que la science a renoncé à l’intelligibilité ?

Je dis simplement que si l’on réduit la science à n’être qu’un ensemble de recettes qui marchent, on n’est pas intellectuellement dans une situation supérieure à celle du rat qui sait que lorsqu’il appuie sur un levier, la nourriture va tomber dans son écuelle. La théorie pragmatiste de la science nous ramène à la situation du rat dans sa cage.

Bonne réflexion et Meilleurs voeux 2024 !

Faut-il craindre l’IA ? 6/n

Pour mon dernier article de l’année, je vais de nouveau citer Yannick MENECEUR, car ses articles sont non seulement très intéressants et bien écrits et qu’ils soulèvent des questions pertinentes et apportent des réponses, … avec lesquelles parfois je suis en désaccord, ce qui est parfait pour le débat.

Je le cite : « Pour simplifier à l’extrême, nous avons aujourd’hui globalement affaire avec des systèmes qui sont une énorme machinerie statistique et mathématique, induisant des « modèles » à partir de grandes quantités de données  : c’est ce qui est qualifié « d’apprentissage ». »

Les modèles que nous utilisons en #IA lors de l’apprentissage ne sont pas induits, ils ne sont pas non plus déduits. Ils sont choisis.

Le concepteur du logiciel choisit un modèle (ou le crée) et au cours de l’apprentissage les paramètres (ou les poids) de ce modèle sont calculés par itérations.

Par exemple, si je souhaite effectuer une classification d’images, je peux choisir un modèle comme microsoft/resnet-50, un réseau de neurones à convolutions de profondeur 50. Je peux aussi commencer mon apprentissage en commençant avec des paramètres déjà entraînés (transfer learning) et poursuivre l’apprentissage avec mes données. Rien que pour la classification d’images, j’ai le choix entre plus de 8000 modèles chez Hugging Face et rien ne m’empêche de créer le mien.

Contrairement à l’idée qu’on se fait, il y a là beaucoup de bricolage en IA. Pourquoi 50 couches et pas 49 ? pourquoi de l' »average pooling » ? Pourquoi du « max pooling » ailleurs ? et pour les hyper paramètres, pourquoi un batch size de 32 ?, pourquoi x epochs ? …

Il y a parfois des réponses techniques à ces questions, rarement des réponses théoriques, très souvent c’est le fruit de l’expérience (la théorie arrive après).

Ce qui est vrai pour les réseaux de neurones l’est aussi pour les transformers utilisés pour l’intelligence artificielle générative.

Evidemment il y a des maths. Comment mettrait-on à jour les paramètres sans la rétro-propagation mais il n’y a pas la méthode mathématique, ce qui rend peut-être les choses plus intéressantes car incertaines.

Joyeux Noël à tous !

Faut-il craindre l’IA ? 5/n

NeurIPS est une organisation à but non lucratif dont le but est de favoriser l’échange des avancées de la recherche en #IA et en #ML.

Cette année (2023) ils ont décerné le Test of Time Award à Word2Vec.

Ce prix récompense des travaux de recherche menés il y a 10 ans, ayant eu un impact important en IA (article cité plus de 40 000 fois).

Pour rappel, Word2Vec permet de créer une représentations vectorielles des « mots » composant un texte, de telle sorte que ceux qui partagent des contextes similaires soient représentés par des vecteurs numériques proches. Ce principe est repris dans tous les Large Language Models #LLM tels que #ChatGPT.

Un des co-auteurs (voire le seul…) de Word2Vec Tomas Mikolov a réagi à cette nouvelle en précisant ceci : « I’m really happy about it! I think it’s the first « best paper » type of award I ever received. In fact, the original word2vec paper was rejected at the first ICLR conference in 2013 (despite the acceptance rate of around 70%), so it made me think how difficult it is for reviewers to predict future impact of research papers.« 

Plus loin il écrit : « I discussed this project many times with others in Google Brain – mainly Quoc and Ilya – who took over this project after I moved to Facebook AI. I was quite negatively surprised when they ended up publishing my idea under now famous name « sequence to sequence » where not only I was not mentioned as a co-author, but in fact my former friends forgot to mention me also in the long Acknowledgement section, where they thanked personally pretty much every single person in Google Brain except me.

This was the time when money started flowing massively into AI and every idea was worth gold. It was sad to see the deep learning community quickly turn into some sort of Game of Thrones. Money and power certainly corrupts people…« 

Ilya c’est Ilya Sutskever un des fondateurs d’OpenAI

Ce que raconte Tomas Mikolov est intéressant à plusieurs titres. Tout d’abord que la recherche en #IA est imprévisible, que même les experts se trompent souvent sur les retombées de leurs travaux. Ensuite que la recherche est le fruit d’un travail collaboratif, parfois sur de nombreuses années. Enfin, qu’il se joue chez les chercheurs les mêmes conflits, les mêmes relations humaines et (inhumaines, type GoT) que dans toutes les organisations.

Faut-il craindre l’IA ? 4/n

Le magazine économique américain Forbespublie chaque année ses prévisions sur le futur de l’Intelligence Artificielle.

En décembre 2020, ils prévoyaientceci pour 2021 :

« The transformer “arms race” will continue in 2021 with the publication of the first model with over 1 trillion parameters. Most likely this model will come from OpenAI and be named GPT-4. Other organizations that might break the trillion-parameter-model mark include Microsoft, NVIDIA, Facebook and Google.« .

Bingo. Mais était-ce si difficile ? Ils se sont pourtant trompés sur l’année puisque GPT-4 n’a été annoncé qu’en mars 2023. Quant à leurs autres prévisions, elles se sont presque toutes avérées fausses.

De la même façon, Gartner écrit aussi ses prévisions.

En 2019, ils prévoyaient pour 2024 :

« By 2024, AI identification of emotions will influence more than half of the online advertisements you see.« 

ou encore

« By 2023, the number of people with disabilities employed will triple due to AI and emerging technologies reducing barriers to access.« .

Le risque d’erreur pour une prévision sur 5 ans est certes beaucoup plus élevé mais de là à se tromper sur tout !

Il y a 5 ans l’IA générative n’était pas prévue, du moins telle qu’elle est aujourd’hui. Le débat sur les « emergent capabilities » est là pour l’illustrer.

Non seulement l’IA générative n’était pas prévue pour ses usages mails elle ne l’était pas non plus techniquement par ses concepteurs, au sein des R&D (hormis les GAN grâce à Ian Goodfellow en 2014)

Les équipes d’OpenAI ont toujours dit que c’est l’arrivée des transformers (2107) qui a accéléré leurs recherches. et GPT-2 (2019) avec 1,5 milliards de paramètres est très très loin de ce qu’est GPT-4 et même de GPT-3 (175 milliards de paramètres)

Pronostiquer l’avenir de l’IA est un pardi perdu d’avance. S’emparer de ce qu’elle est aujourd’hui est déjà un challenge pour beaucoup. La craindre c’est craindre l’imprévisible, c’est à dire craindre la vie !

Faut-il craindre l’IA ? 3/n

Geoffrey Hinton (un des parrains de l’IA, prix Turing 2018 avec Yann LeCun et Yoshua Bengio) dit ceci en mai 2023, à la BBC : « Right now, what we’re seeing is things like GPT-4 eclipses a person in the amount of general knowledge it has and it eclipses them by a long way. In terms of reasoning, it’s not as good, but it does already do simple reasoning, » « And given the rate of progress, we expect things to get better quite fast. So we need to worry about that.« 

Yoshua Bengio partage à peu près la même inquiétude à l’opposé de Yann LeCun.

Récemment sur X, Geoffrey Hinton résume son opposition à Yann LeCun de la façon suivante : « The central issue on which we disagree is whether LLMs actually understand what they are saying. You think they definitely don’t and I think they probably do. Do you agree that this is the core of our disagreement? » ce à quoi répond (partiellement YLC) : « LLMs obviously have some understanding of what they read and generate. But this understanding is very limited and superficial. Otherwise, they wouldn’t confabulate so much and wouldn’t make mistakes that are contrary to common sense. »

Les LLM (Large Language Model) tels que #ChatGPT comprennent-ils quelque-chose à ce qu’ils lisent et/ou génèrent ? N’est-ce pas leur faire un trop grand honneur de poser cette question ? Entre le perroquet stochastique et une machine qui comprend, n’y a-t-il pas des étapes intermédiaires ?

Yannick MENECEUR dans un articlefort intéressant au sujet de cette querelle et de la régulation de l’#IA propose une autre réflexion :

Leurs positions, même avec leurs divergences, renforcent en réalité la crédibilité de « l’IA » comme étant un outil à même de répondre à la plupart des maux de notre société… mais dont la puissance créé des dangers à la hauteur des performances alléguées.

Or, laissez-moi vous rassurer : même si elles peuvent être instrumentalisées de manière délétère, la statistique et les probabilités ne présentent pas un danger extrême pour l’humanité ! Car « l’IA » à laquelle nous avons affaire reste, pour la simplifier à l’extrême, une grosse machinerie statistique.

Le réel danger, et nos trois chercheurs l’omettent soigneusement, c’est la persistance à surévaluer systématiquement les capacités de systèmes qui restent stupides, artisanaux et fragiles. Contribuer à entretenir l’illusion qu’ils vont pouvoir se substituer progressivement à une prise de décision érudite et experte, résultant d’une longue formation parmi des pairs, relève d’une totale incompréhension de la réalité des objets à l’œuvre, entretenue par un savant marketing de l’industrie numérique.

Je ne vois pas comme lui en l’#IA une « grosse machinerie statistique », je pense que le terme est mal choisi lorsqu’on fait référence à des réseaux de neurones ou des transformers, et si je suis d’accord avec ce qu’il écrit concernant la « prise de décision » je nuancerais toutefois le propos car si l’#IA ne décide pas elle fournit tout au moins parfois une grande part de l’information qui laisse peu de latitude pour ensuite décider (par exemple lorsqu’elle détecte une tumeur avec une meilleure précision que le radiologue).

Par ailleurs, du côté de l’#IA générative , y renoncer c’est choisir de se priver d’un outil spectaculaire pour améliorer notre productivité et même notre créativité.

Le débat pour décider si les LLM comprennentquelque-chose est en fait très mal posé.

La véritable question est de savoir ce qui fait la spécificité de l’humain et ce n’est pas en interrogeant les ingénieurs que nous trouverons la réponse mais c’est en se tournant vers la pathologie spécifiquement humaine. L’aphasique a plus à nous apprendre sur le langage (malgré lui) que ChatGPT.

Faut-il craindre l’IA ? 2/n

L’#IA ce n’est pas seulement l’#IA générative (#ChatGPT, Midjourney, …) c’est aussi l’#IA discriminative (celle qui permet de détecter une tumeur sur une radiographie) et l’#IA de type renforcement (pour simplifier), (par exemple #AlphaGO de Google DeepMind)

Google DeepMind fondée par Demis Hassabisest une pépite de l’#IA.

Regardez certaines de leurs publications les plus importantes de ces dernières années. Il s’agit tout aussi bien de battre le champion du monde de jeu de Go, que réduire la consommation électrique de Google, aider à détecter des #cancers et à les traiter, prédire la structure tridimensionnelle des #protéines à partir de leur séquence d’acides aminés, créer un modèle pour des prévisions météorologiques mondiales rapides et précises surpassant le système standard de prévision, découvrir 2,2 millions nouveaux cristaux, dont 380 000 sont stables, et proposer un nouveau #LLM (Large Language Model) de type #ChatGPT #GPT-4.

Les chercheurs et les entreprises qui bénéficient des recherches de Google DeepMind ne voient pas en l’#IA un concurrent, une menace, mais au contraire, un accélérateur bénéfique à leurs travaux.

  • DeepMind AI Reduces Google Data Centre Cooling Bill by 40% [2016]
  • AlphaGo Zero: Starting from scratch [2017]
  • Using AI to plan head and neck cancer treatments [2018]
  • Expanding our research on breast cancer screening to Japan [2018]
  • Predicting eye disease with Moorfields Eye Hospital [2018]
  • AlphaZero: Shedding new light on chess, shogi, and Go [2018]
  • Machine learning can boost the value of wind energy [2019]
  • AlphaFold: Using AI for scientific discovery [2020]
  • GraphCast: AI model for faster and more accurate global weather forecasting [2023]
  • Millions of new materials discovered with deep learning [2023]
  • Introducing Gemini: our largest and most capable AI model [2023]

Faut-il craindre l’IA ? 1/n

En 1978, le journal Le Monde, commence un article au sujet de l’informatique, de la façon suivante : « Le rapide développement de l’informatique soulève de nombreuses craintes. On accusa notamment l’ordinateur de menacer les libertés individuelles, voire de compromettre l’indépendance nationale et surtout de créer du chômage. Cette dernière crainte, très répandue, suscite des angoisses profondes et mérite que l’on s’y arrête. En cette période de chômage croissant, si un tel phénomène s’avérait exact, ne serait-il pas sage de chercher à freiner la fulgurante croissance de l’industrie informatique ?« 

Dans un article, encore plus ancien (1971), Raymond Moch écrit : « Devant cette atteinte continuelle à sa tranquillité, comme devant la transformation abusive des rapports humains en un échange ininterrompu et frigorifiant de cartes perforées, nul individu ne peut rester indifférent. Chez certains, le désir d’entrer à leur tour dans la caste des initiés l’emporte au point de devenir parfois maladif. Pour d’autres, cela ne dépasse pas l’anxiété de voir sans cesse remis en question un héritage que l’on croyait assez stable pour s’y assurer. Aux yeux de quelques-uns enfin, et dont le nombre risque de grandir rapidement, c’est la dignité même de l’homme et la signification de son effort qui sont en cause.« 

Lorsque je donne des conférences en #IA, ou lorsque j’assure des formations, j’interroge souvent le public au sujet de leurs craintes.

Un pourcentage important a souvent exactement les mêmes que celles citées dans ces articles :

  • la peur du chômage,
  • les menaces sur la liberté
  • auxquelles s’ajoutent le fantasme d’une #IA qui prendrait le contrôle sur nos vies.

Toutefois, j’ai aussi remarqué, qu’après mes formations (sur #ChatGPT, #MidJourney, #DALL.E, …) souvent les avis changent et les participants qui s’emparent de ces outils font tous part de gain de productivité et d’amélioration de la qualité de leur travail.

J’entends bien qu’il est difficile pour les non-initiés de se faire un avis, et ce d’autant plus que même parmi l’élite de d’#IA Yann LeCun Yoshua Bengio Geoffrey Hinton les avis divergent.

Je vais essayer de contribuer à la réflexion sur le sujet par une série d’articles.

Contactez nous !

Quels que soient vos besoins, s'ils relèvent de l'intelligence artificielle, nous avons une solution.