Cette semaine, on revient sur les liens entre IA et open source... Mais aussi d'autres actualités sur l'innovation !
Afficher dans le navigateur
logo_in_Progress

La newsletter qui reconnecte l'innovation au progrès
— par Cap Digital

Le 7 décembre 2023

Alors que la fin de cette année 2023 approche à grand pas, nous avons choisi de nous concentrer dans ce nouveau numéro d'In Progress, sur un sujet qui a marqué ces derniers mois : les liens entre IA et open source.

Comme vous le (re)découvrirez dans notre Focus dédié, le débat en la matière a été largement animé. On pense aux positions pro-open-source de Meta, mais aussi au revirement d'OpenAI, passé d'un modèle ouvert au plus grand des secrets en un claquement de doigts. Voici sans plus tarder le sommaire de cette newsletter.

  • Focus sur : L'IA open source. Est-ce une utopie, une réalité ? On fait le point avec Isabelle Ryl, enseignante et directrice de PRAIRIE.
  • L'audio anti-schmilblick : Matthieu Parmentier de France Télévisions, nous présente le projet de dataspace TEMS.
  • Mais encore : Présentez votre innovation au PIDS XP 2024 !
  • L’appel à projet en stock : TechSprint, l'innovation au service de la transition écologique.
  • Le nouvel adhérent : On souhaite la bienvenue à Deeptimize, une start-up de la Sportech.

Avec comme toujours, notre sélection d’événements et actus à ne pas manquer, en fin de newsletter !

A très vite,

L'équipe Cap Digital

P.S. : Si cette newsletter vous plaît,
aidez-nous à la faire connaître, partagez-là à un de vos contacts

points-Dec-06-2023-02-09-52-8666-PM

FOCUS SUR

Open source et IA : je t’aime, moi non plus

une_nl24
L’IA ferait-elle un peu trop tourner les têtes ? Ces derniers mois, ses spécialistes ne semblent en tout cas plus trop savoir quelle position adopter à son sujet. Alors que Meta, bien loin de ses prises de position habituelles, s’est mis à vanter les mérites de l’IA open source, voilà que les fondateurs d’OpenAI, qui prônaient eux l’ouverture, sont revenus sur leurs dires, arguant s’être “trompés”... On fait le point.

Meta vante les mérites de l'open source

Meta a récemment annoncé le lancement d’un programme d’accompagnement de six mois en partenariat avec Hugging Face et Scaleway. L’objectif ? Faire grandir des start-up qui travaillent sur l’intelligence artificielle. La condition sine qua non : qu’elles construisent leurs produits ou services “autour des modèles open source”, expliquait sur Linkedin Laurent Solly, vice-président Europe du sud chez Meta. Il ajoutait alors : “Chez Meta, nous croyons fermement que l’open source est un moteur essentiel de l’innovation, ouvrant la voie à un progrès considérable.” Des positions partagées entre autres par Yann LeCun, vice-président et directeur scientifique pour l’IA chez la maison-mère de Facebook, pour qui l’IA open source serait ni plus ni moins que “la voie à suivre”. 

Meta et IBM ont aussi créé un groupe, l’AI Alliance, plaidant en faveur d’une démarche scientifique “ouverte”. Il regroupe, hormis ces deux géants, Dell, Sony, Intel, AMD, ainsi que plusieurs start-up et universités. Mais alors, comment expliquer cet engouement soudain ? 

Avant de se demander si open source et open data sont l’avenir de l’IA, il est peut-être important de rappeler qu’elles ont largement contribué, jusqu’à présent, à son développement.

“Nous avions tort”

“Des projets libres tels que Hadoop, Spark et Cassandra ont fourni les outils dont l’IA et l’apprentissage automatique avaient besoin pour stocker et traiter de grandes quantités de données sur des grappes de machines, illustre l’analyste et journaliste Steven Vaughan-Nichols dans un article écrit pour ZDNet. Sans ces données et sans un accès rapide à celles-ci, les grands modèles de langage (LLM) ne pouvaient pas fonctionner.” 

Il ajoute que les modèles d’IA génératives qui sont actuellement sur le devant de la scène, comme ChatGPT et Llama 2 sont eux aussi “nés à partir de sources ouvertes”. Il faut évidemment nuancer ceci en précisant qu’ils ne sont pas - ou plus - pour autant des logiciels libres. Dans le cas de Llama-2 de Meta, “les données d’entraînement ne sont pas connues”, nous précise ainsi Isabelle Ryl, enseignante et directrice de Prairie, l'institut de recherche interdisciplinaire en intelligence artificielle, porté par Inria, le CNRS, l'Institut Pasteur, l'Université PSL et l'Université Paris Cité.

Au-delà du seul sujet des LLM, c'est en fait l'intégralité du domaine du machine learning qui doit beaucoup à l'open data, à l'open source et à l'open science précise Roberto Di Cosmo, directeur du projet Software Heritage à Inria : "La construction de modèles par apprentissage nécessite des grandes quantités de données, et ce n'est donc vraiment pas surprenant que l'open-data ait eu un rôle crucial pour leur développement, même si les procès intentés aux US en ce moment contre OpenAI pointent le fait que certains acteurs utilisent aussi - sans trop se gêner - des données qui sont disponibles, mais pas forcément ouvertes. Une lettre ouverte signée récemment par Creative Commons, Hugging Face, GitHub, Laion, EleutherAI et Open Future à propos de l'AI Act européen détaille le rôle crucial de l'Open Source et de l'Open Science dans le dévéloppement actuel du Machine Learning : sans la collaboration massive permise par l'Open Source et l'Open Science, on n'aurait pas pu obtenir les résultats actuels."

Et de fait, OpenAI n’est pas longtemps resté “open”. Pour la sortie de GPT-4, presque aucune information n’a été divulguée, créant un certain sentiment d’incompréhension chez les spécialistes du sujet. “Nous avions tort, a alors expliqué Ilya Sutskever, cofondateur d’OpenAI au média The Verge. (...) Je pense que d’ici quelques années, il semblerait évident à tout le monde que l’IA open source n’est pas une solution censée.” 

La question de la concurrence

Pourquoi un tel revirement ? D’un côté, il évoque des questions de “sécurité”, certes secondaires… mais réelles, selon lui. “Ces modèles sont très puissants et deviennent de plus en plus puissants, dit-il. Nous atteindrons un jour un stade où ces modèles pourront être utilisés pour causer du tort. Plus les capacités de l’IA sont élevées, moins cela fait sens de laisser les modèles ouverts et accessibles.” 

Il estime par ailleurs, et c’est là sa principale crainte, que ses compétiteurs pourraient copier les modèles. Des modèles qui lui prennent du temps, de l’argent et une vaste équipe de recherche pour être développés. “Il y a beaucoup beaucoup d’entreprises qui voudraient faire la même chose, et de ce point de vue-là, on pourrait finalement estimer que c’est le signe de la maturité du marché”, détaille Ilya Sutskever - rappelons qu’à l’origine, OpenAI était à but non lucratif, mais avait changé son fusil d’épaule en devenant une société à bénéfice plafonné. 

Serait-ce donc avant tout une question d’argent ? Les objectifs business sont au cœur de l'équation pour Roberto Di Cosmo. "Le récent psychodrame avec le départ puis retour de Sam Altman dans l'espace d'une semaine, et les investissement massifs de Microsoft qui intègre les produits de OpenAI dans tous ses outils laissent aussi penser que les enjeux économiques sont peut-être la raison essentielle de changement d'approche, au point qu'on peut parler presque de ClosedAI". Mais il serait trop simpliste de croire que les enjeux économiques expliquent tout à eux seuls. Pour Isabelle Ryl, il y aurait aussi une autre motivation à ne pas rendre publiques les données d’entraînement ou les modèles. “L’une des raisons possibles de ce manque de communication, c’est peut-être le flou juridique sur la légalité de l’utilisation de certaines données d’entraînement, avance-t-elle en guise d’hypothèse. Les entreprises ne veulent sûrement pas s’exposer à des recours. Beaucoup de données sont lisibles sur internet par exemple, sans que l’on sache si on a vraiment le droit de les utiliser en tant que données d’entraînement.”

Pour les entreprises comme OpenAI qui n’ont à priori plus besoin de ressources externes pour consolider leurs modèles, le jeu n’en vaut peut-être pas la chandelle… L’IA open source est-elle donc condamnée à mourir à petit feu ? 

L’IA open source, opportunité face aux hyper-scalers

Pour notre interlocutrice, certains acteurs bénéficieront au contraire toujours de ces modèles… mais pour d’autres raisons. En France, l’open source a longtemps été la voie privilégiée - si bien que l’on y a aujourd’hui des modèles de ce type “solides”, “comme Mistral, les Falcom ou Bloom”. “Pour des pays comme la France qui n’avaient pas d’entreprises dominantes en la matière, l’open source est une voie intéressante à prendre, philosophiquement déjà, mais aussi en termes de transparence, de lutte contre les biais,...”, remarque l’experte.

L’un des besoins actuels : développer des “corpus d’entraînement ouverts, bien faits, avec des données de qualité et représentatives” pour les plus petits acteurs qui pourraient en bénéficier. “L’équipe Almanach de PRAIRIE par exemple, travaille sur des corpus avec des langues peu représentées, en Europe ou en France, et avec des langues régionales. Ce type de corpus ouverts demande un certain investissement, mais ne sont pas toujours monnayables en soi, indique Isabelle Ryl. Les grosses entreprises et hyper-scalers y ont donc peut-être moins d’intérêt, tandis que les plus petites n’auront pas les experts et chercheurs pour développer ce type de corpus…”

Et Roberto Di Cosmo de nous rappeler en conclusion que l'open source a été pendant des décennies le plus grand levier d'innovation, en permettant à tous les acteurs, même les plus petits, de construire des nouveaux produits sans avoir à réinventer la roue ou à payer des licences pour la myriade de fonctionnalités qui sont nécessaires pour cela. Bref, en IA comme ailleurs, l'open source va rester un important levier d'innovation et de compétitivité pour les start-up et PME françaises et européenne.

MAIS ENCORE...

Venez présenter votre innovation au PDIS XP 2024

Pour la deuxième année consécutive, le PIDS Enghien nous confie l’animation de son espace démos. Y seront exposées des solutions innovantes de pointe basées sur l’IA générative et au service de l’animation, de la 3D et des VFX. Les poids lourds du secteur du cinéma, de l’audiovisuel ou du jeu vidéo n’ont pas caché leur intérêt pour ces solutions intelligentes. Alors que Disney annonçait en août dernier la création d’une task force autour de l’IA, Ubisoft révélait au printemps vouloir s’appuyer sur cet outil pour faciliter l’écriture des scénarios de ses jeux vidéo.

Alors si vous êtes spécialisés dans le design de personnage, la modélisation 3D, les rendus hyper-réalistes de peaux ou l’animation au sens strict du terme, n’hésitez pas à candidater avant le 15 décembre à notre appel à exposants. Douze solutions seront retenues et mises en lumière lors du PIDS Enghien 2024, qui aura lieu le 1er février.

L'AUDIO ANTI-SCHMILBLICK

Matthieu Parmentier nous présente TEMS en 6 minutes et 42 secondes


Matthieu Parmentier, directeur de france.tv access, nous présente dans cet audio le projet TEMS (Trusted European Media data Space), un projet sur lequel collabore Cap Digital. Son objectif : créer un espace commun pour les données des médias à travers l’Europe.

Ecouter la note vocale

L'APPEL À PROJETS EN STOCK

L’appel à projets du moment pour accélérer la transition écologique

 

La Caisse des Dépôts lance la deuxième édition de TechSprint ! Cet appel à projets s’adresse aux entreprises du Cloud, de la Data ou de l’IA, mais aussi aux autres acteurs sectoriels (entreprises du numérique, start-up, grands comptes, institutions, associations et groupements d’entreprises) qui développent des solutions basées sur l’IA ou la Data. La condition sine qua non : que les projets présentés soient au service de l’accélération de la transition écologique et correspondent à l’un des quatre secteurs cibles identifiés. Ces secteurs étant : la finance, la flexibilité énergétique, le transport et la préservation des ressources.

Vous avez jusqu’au 8 janvier pour déposer votre candidature et on vous invite chaudement à participer au meet-up de TechSprint, le 12 décembre !

ON SOUHAITE LA BIENVENUE À...

Deeptimize, qui met l'IA au service du sport

portrait_nl24

Antoine Pirovano, CEO & cofondateur de Deeptimize.

Le secteur du sport n’échappe pas à l’innovation technologique et aux progrès de l’intelligence artificielle. Deeptimize, une start-up créée en 2021 et basée à Paris, en sait quelque chose. Notre nouvel adhérent a développé une solution unique, automatisée et facile à prendre en main, qui permet d’analyser en temps réel des images de performances sportives, d’identifier parmi elles les moments clés et décortiquer chaque mouvement. Pour cela, nul besoin de marqueurs ou capteurs.

Fini aussi, la collecte de données manuelle et les caméras multiples. Équipes de sport, diffuseurs, médias ou entreprises de l’univers de la Sportech peuvent utiliser n’importe quelle caméra, et une seule, pour se servir de cette solution. La start-up promet avoir atteint “un nouveau standard” en matière d’IA sportive : ses outils seraient notamment redoutablement efficaces pour suivre plusieurs joueurs ou joueuses en mouvement, même dans un contexte de foule.

soon

ON Y SERA

Autrement dit, l’agenda des événements qu’on vous recommande un peu plus que d’autres.

• Transition écologique : La Région Île-de-France vous invite à sa journée de l'innovation dédiée à la transition écologique et énergétique, le vendredi 2 février 2024.

• Minalogic : La 10ème édition des Minalogic Business Meetings aura lieu le 14 mars 2024 au stade Geoffroy-Guichard à Saint-Etienne.

top

SNIPPETS

Les actus de la quinzaine, en flux continu.

• Cap Digital recrute ! Nous recherchons un.e directeur.rice R&D&I. Pour en savoir plus et postuler, consulter l'annonce. • Bravo à notre adhérent Sopht, la plateforme pour décarboner son IT, qui a été classée dans le classement Future40 de Station F.  • Soumettez vos jeux vidéo pour concourir aux Pégases 2024 : les inscriptions sont ouvertes !  • Le groupement Les Mousquetaires est à la recherche de son ou sa futur.e chef.fe de projets innovation. • Recrutement toujours : la DGE recrute son ou sa prochain.e directeur.rice de projets “réseaux du futur, territoires connectés et compétences numériques - coordinateur de la stratégie d’accélération 5G et réseaux du futur de France 2030”. • La Métropole de Lille lance une campagne de financement participatif pour soutenir les projets locaux engagés pour l’innovation et la transition durable. A découvrir sur KissKissBankBank !  • Le site Cartes.gouv.fr est né, grâce notamment au travail de l’IGN : les services publics pourront y rassembler et y partager les données liées à leurs politiques sur le territoire.

Et voilà pour cette quinzaine ! Cette newsletter vous a plu ? N'hésitez pas à nous faire vos retours en répondant directement à ce mail.

Un·e ami·e vous a fait suivre ce mail ?
Abonnez-vous aussi, ça ne peut pas faire de mal.
Ou faites suivre ce mail, même si ceci n’est pas une chaîne.

Sinon, vous pouvez aussi vous désinscrire, on ne le prendra pas mal.

Et si vous avez raté les précédents numéros, plongez dans nos archives.

À bientôt chez Cap Digital ? On offre le café !
Faites-nous signe : communication@capdigital.com

Vous pouvez également consulter l'annuaire de nos adhérents.

Et si vous souhaitez adhérer à Cap Digital, c'est par ici.

LinkedIn
Twitter
YouTube

www.capdigital.com

L'action de Cap Digital est soutenue par

InProgress_financeurs23_transparent-1

Cap Digital, 14, rue Alexandre Parodi, 75010 Paris, France

Gérer les préférences