
D'anciens chercheurs de Meta lèvent 8 millions de dollars pour Memories.ai afin de créer une IA capable de comprendre les longues vidéos
La Révolution Mémorielle : Comment le tour de financement d'amorçage de 8 millions de dollars de Memories.ai pourrait transformer l'avenir de l'intelligence vidéo
Dans un monde submergé par les données vidéo, une petite équipe d'anciens chercheurs de Meta estime avoir résolu l'une des limitations les plus tenaces de l'IA : l'incapacité à véritablement comprendre de longs contenus vidéo. Leur solution pourrait remodeler des industries allant de la sécurité au divertissement, tout en ouvrant de nouvelles frontières d'investissement dans l'infrastructure de l'IA.
La dimension oubliée de la vision par ordinateur
Memories.ai, fondée par le Dr Shawn Shen et Enmin Zhou, anciens chercheurs de Meta Reality Labs, est sortie de l'ombre le 24 juillet 2025, avec un tour de financement d'amorçage de 8 millions de dollars. Ce tour a été mené par Susa Ventures avec la participation de Samsung Next, Fusion Fund, Crane Venture Partners, Seedcamp et Creator Ventures.
La startup a développé ce qu'elle appelle un Modèle de Grande Mémoire Visuelle (LVMM), conçu pour surmonter les limitations des systèmes d'IA actuels qui peinent à traiter plus de quelques heures de séquences vidéo. Selon l'entreprise, leur technologie peut s'adapter pour analyser jusqu'à 10 millions d'heures de vidéo – bien au-delà des capacités existantes dans l'industrie.
Le tour de financement – soit le double de ce que l'entreprise visait initialement – a été mené par Susa Ventures avec la participation de Samsung Next, Fusion Fund, Crane Venture Partners, Seedcamp et Creator Ventures.
Le rappel numérique : le problème à plusieurs milliards de dollars sous nos yeux
La limitation que Memories.ai aborde représente une inefficacité massive dans de multiples industries. Alors que l'IA basée sur le texte a vu des modèles capables de traiter des centaines de milliers de jetons, l'analyse vidéo échoue généralement après seulement quelques minutes de contenu.
« Les entreprises disposent de pétaoctets de vidéo qu'elles ne peuvent pas rechercher ou analyser efficacement », note un analyste technologique senior d'une grande banque d'investissement. « Les équipes de sécurité visionnent manuellement des séquences interminables. Les entreprises de médias ne peuvent pas trouver de scènes dans leurs propres archives. Les départements marketing ont du mal à extraire des informations des vidéos de campagne. »
Cette inefficacité se traduit par une opportunité de marché substantielle. Le marché mondial de l'analyse vidéo, évalué à environ 12,33 milliards de dollars en 2024, devrait atteindre près de 94,56 milliards de dollars d'ici 2034, avec un TCAC de 22,6 % sur cette période.
Une mémoire computationnelle qui s'adapte à la réalité
Ce qui distingue l'approche de Memories.ai, c'est à la fois son échelle et son architecture. Le LVMM ingère et compresse d'abord la vidéo brute en une couche de mémoire structurée, puis établit des relations contextuelles entre les éléments visuels sur des périodes arbitraires.
« Les modèles traditionnels analysent la vidéo image par image ou en courtes séquences, perdant tout contexte entre les segments », explique Zhou. « Notre système imite la mémoire humaine, conservant les informations importantes tout en filtrant le bruit, créant des liens entre des événements liés et permettant la récupération par langage naturel de moments spécifiques. »
La technologie peut, selon les rapports, traiter jusqu'à 10 millions d'heures de séquences, ce qui représente des ordres de grandeur au-delà des capacités actuelles. Plus impressionnant encore, une grande partie de ce traitement peut se faire directement sur les appareils des utilisateurs plutôt qu'exclusivement dans le cloud.
Des caméras de sécurité aux archives d'Hollywood
Les premières applications se concentrent sur les secteurs submergés par les données vidéo :
Dans la sécurité et la surveillance, le système peut faire émerger instantanément des séquences pertinentes à travers de vastes archives, transformant potentiellement l'enquête sur les incidents de plusieurs jours à quelques minutes. Pour les entreprises de médias, il promet de rendre les énormes bibliothèques de contenu instantanément consultables par scène, accessoire, personnage ou action.
Les équipes marketing peuvent analyser les tendances à travers des milliers de vidéos de médias sociaux, tandis que les entreprises de robotique voient un potentiel pour des machines qui apprennent continuellement de leurs expériences visuelles.
Peut-être le plus intrigant pour les applications grand public, la technologie pourrait permettre aux utilisateurs de rechercher dans leurs collections de vidéos personnelles avec des requêtes en langage naturel comme « trouve la vidéo des premiers pas de ma fille » ou « montre-moi tous les couchers de soleil sur la plage de nos vacances ».
La course à la domination de la mémoire vidéo
Memories.ai n'est pas seule à reconnaître cette opportunité. TwelveLabs a levé 80 millions de dollars sur plusieurs tours, avec la participation notamment de NEA, NVIDIA NVentures, Databricks, Snowflake et d'autres. Leur technologie, cependant, est actuellement optimisée pour des vidéos d'une durée maximale de 60 minutes.
D'autres concurrents incluent mem0 (soutenu par Y Combinator, principalement axé sur la mémoire textuelle), Letta (10 millions de dollars en amorçage de Felicis), et des offres de géants de la technologie comme l'API Video Intelligence de Google et Amazon Rekognition.
« Ce qui distingue Memories.ai, c'est à la fois l'échelle qu'ils ciblent et leurs capacités sur appareil », observe un partenaire de capital-risque spécialisé dans les investissements en IA. « S'ils peuvent livrer ne serait-ce que la moitié de ce qu'ils promettent avec des performances acceptables, ils devanceront les acteurs établis actuels. »
La voie à suivre : opportunités et défis
Malgré la technologie prometteuse et le marché substantiel, Memories.ai fait face à des obstacles importants. L'entreprise doit prouver que son système peut maintenir la précision et les performances à grande échelle dans des déploiements réels, pas seulement des démonstrations contrôlées.
La mise en place d'une opération de vente aux entreprises représente un autre défi pour cette équipe axée sur la recherche, qui ne compte actuellement que 15 employés. Gérer les coûts de calcul liés au traitement de millions d'heures de vidéo tout en restant compétitif en termes de prix présente encore un autre obstacle.
« La fenêtre pour créer un avantage concurrentiel durable est courte », avertit un partenaire d'une grande société d'investissement technologique. « Copilot Memory de Microsoft est lancé le mois prochain, et Google et Amazon développent rapidement leurs capacités vidéo. »
Horizon d'investissement : Lire les signaux
Pour les investisseurs qui s'intéressent au secteur de l'intelligence vidéo, plusieurs indicateurs peuvent signaler la trajectoire de Memories.ai :
Mesures de conversion : Surveillez les annonces de programmes pilotes se transformant en contrats annuels à six chiffres, en particulier dans les verticales de la sécurité et des médias où le problème est le plus aigu.
Succès du déploiement en périphérie (Edge) : La capacité à effectuer une analyse substantielle sur l'appareil représente un avantage concurrentiel potentiel, d'autant plus que la réglementation sur la vie privée se durcit à l'échelle mondiale.
Économie unitaire : L'efficacité du traitement s'avérera cruciale ; le coût de calcul par heure de vidéo doit diminuer considérablement pour maintenir des marges saines à l'échelle.
Partenariats stratégiques : Recherchez des collaborations potentielles avec des fabricants d'appareils (tirant parti des capacités sur l'appareil) ou des intégrateurs de systèmes de sécurité qui pourraient accélérer l'adoption par les entreprises.
Les observateurs du marché suggèrent trois issues potentielles : acquisition stratégique par un acteur plus important (Adobe, NVIDIA ou AWS étant des candidats probables), croissance vers une offre publique indépendante, ou intégration dans le matériel périphérique en tant que « SDK de mémoire ».
Bien que la technologie semble prometteuse, les investisseurs institutionnels devraient procéder à une validation technique approfondie avant d'engager des capitaux substantiels. Tester le système sur un ensemble de données « froides » de plus de 40 000 heures de séquences et comparer les métriques de précision/rappel par rapport aux concurrents fournirait des informations précieuses pour savoir si Memories.ai peut tenir ses promesses ambitieuses.
Alors que les entreprises et les consommateurs sont aux prises avec des volumes de données vidéo toujours croissants, la course pour construire des machines qui comprennent et se souviennent véritablement de ce qu'elles voient promet de remodeler à la fois les marchés technologiques et les expériences utilisateur dans les années à venir.