Deepseek Réalise une Compression de Texte Dix Fois Supérieure en Enseignant aux Ordinateurs à Voir les Documents comme des Images au lieu de les Lire Mot par Mot

Par
CTOL Editors - Ken
7 min de lecture

La Révolution de la Vision : Comment l'IA a Appris à Voir le Texte au Lieu de le Lire

DeepSeek, une entreprise chinoise, bouleverse des décennies d'orthodoxie de l'IA avec une technique de compression radicale qui pourrait remodeler la manière dont les machines traitent l'information

SILICON VALLEY — Dans un développement qui remet en question les hypothèses fondamentales de l'intelligence artificielle, les chercheurs de DeepSeek ont démontré que les ordinateurs pourraient gérer les documents longs plus efficacement en les "regardant" comme le font les humains – comme des images – plutôt qu'en les traitant mot par mot.

Cette avancée, détaillée dans un article publié aujourd'hui, introduit un système appelé DeepSeek-OCR qui réalise ce que les informaticiens ont longtemps cherché : un moyen de compresser considérablement les coûts de calcul massifs liés au traitement de textes longs sans en perdre le sens.

Au cœur de cette innovation se trouve une idée contre-intuitive : au lieu de nourrir un système d'IA avec des milliers de tokens de mots individuels – l'approche standard qui devient exponentiellement plus coûteuse à mesure que les documents s'allongent – les chercheurs rendent le texte sous forme d'image. Un encodeur de vision spécialisé compresse ensuite cette image en une fraction des données d'origine, qu'un modèle linguistique "décompresse" ensuite pour retrouver le texte intégral.

"Il ne s'agit pas seulement d'améliorer l'OCR", a souligné l'analyse de l'équipe d'ingénierie de CTOL.digital, un collectif indépendant de recherche en IA. "Il s'agit de briser le goulot d'étranglement du contexte des LLM en substituant des tokens textuels coûteux à des tokens visuels 2D denses."

Try Deepseek OCR now on Github
Try Deepseek OCR now on Github

Benchmark Performance
Benchmark Performance

Les Chiffres Qui Comptent

Les implications sont claires au vu des métriques. DeepSeek-OCR atteint une précision d'environ 97 % tout en compressant le texte à un ratio de 10 pour 1 – utilisant seulement 100 tokens visuels pour représenter ce qui nécessiterait normalement 1 000 tokens textuels. Même avec une compression plus agressive de 20 pour 1, le système maintient une précision de 60 %.

Sur le benchmark OmniDocBench, qui teste les systèmes d'IA sur des mises en page de documents complexes, des formules et des tableaux, DeepSeek-OCR a surpassé les systèmes établis tout en utilisant un ordre de grandeur de ressources informatiques inférieur. Là où des systèmes concurrents comme MinerU 2.0 nécessitaient en moyenne 6 000 tokens par page, DeepSeek-OCR a obtenu des résultats comparables ou meilleurs avec moins de 800.

Les implications pratiques sont stupéfiantes. Les chercheurs signalent des capacités de traitement dépassant 200 000 pages de documents par jour sur un seul GPU haut de gamme – un débit qui pourrait atteindre 33 millions de pages par jour sur un cluster de taille modérée.

Une Nouvelle Architecture de Mémoire

L'aspect le plus provocateur de cette recherche n'est peut-être pas la performance de l'OCR elle-même, mais ce qu'elle suggère quant à l'avenir des systèmes d'IA. L'équipe de CTOL.digital a identifié ce qu'elle appelle le paradigme de la "mémoire visuelle" : la possibilité pour les systèmes d'IA de maintenir une mémoire graduée, similaire à celle des humains, où les informations récentes sont stockées en haute résolution et le contexte plus ancien "s'estompe" progressivement en images compressées de résolution inférieure.

"Si les modèles peuvent 'voir' le texte directement, l'entrée visuelle pourrait être moins chère que les tokens textuels et plus proche de la cognition humaine", ont noté des chercheurs de la communauté suivant le développement. "Un contexte récent équivaut à des tuiles de haute précision, un contexte plus ancien à de minuscules modes – l'oubli émerge naturellement."

Cette approche pourrait fondamentalement modifier la manière dont les systèmes d'IA gèrent le défi persistant de la compréhension de longs contextes. Les modèles linguistiques actuels peinent à traiter de longs documents, conversations ou bases de code, car le coût de calcul augmente de manière quadratique avec la longueur. DeepSeek-OCR suggère une alternative : rendre le contexte plus ancien sous forme d'images compressées, en maintenant les informations récentes avec une fidélité totale tout en permettant un "oubli" naturel du contexte éloigné.

L'Architecture Derrière l'Avancée

L'efficacité du système découle d'une architecture d'encodeur en trois étapes soigneusement conçue, totalisant environ 380 millions de paramètres, associée à un décodeur Mixture-of-Experts de 3 milliards de paramètres qui n'active que 570 millions de paramètres par étape d'inférence.

La première étape de l'encodeur utilise une attention fenêtrée pour traiter les images haute résolution localement sans surcharger la mémoire. Un réseau convolutif effectue ensuite un sous-échantillonnage agressif par 16 – l'étape de compression critique – avant qu'une dernière étape d'attention globale ne capture le contexte général sur le nombre de tokens désormais gérable.

L'analyse de CTOL.digital a souligné l'élégance de cette conception : "Une image de 1024x1024 génère 4 096 patch tokens, sous-échantillonnés à 256 tokens avant l'attention globale – cela maintient les activations gérables."

La formation du système a nécessité le traitement d'environ 43 millions de paires image-texte pour les capacités OCR de base, plus 16 millions de paires spécialisées pour des tâches avancées comme l'analyse de graphiques et la reconnaissance de structures chimiques. L'équipe a entraîné le système sur 20 nœuds, chacun doté de huit GPU haut de gamme, atteignant le type d'échelle qui définit de plus en plus la recherche de pointe en IA.

Au-Delà de la Reconnaissance de Texte

Le système démontre des capacités qui vont bien au-delà de la simple transcription de texte. Il peut analyser des graphiques en données structurées, convertir des diagrammes chimiques en notation standard, interpréter des figures géométriques et gérer environ 100 langues. Lors des démonstrations, il a montré sa capacité à produire non seulement du texte brut, mais aussi des formats structurés, notamment des tableaux HTML, du Markdown et des mises en page basées sur des coordonnées.

Cependant, l'équipe de CTOL.digital a également noté des mises en garde importantes : "97 % ne suffit pas pour des cas d'utilisation OCR stricts ; l'idée est excellente mais la précision peut être insuffisante dans des processus à enjeux élevés." Pour des applications comme les dossiers médicaux ou les contrats financiers où une précision parfaite est non négociable, une surveillance humaine resterait essentielle.

Un Modèle d'Innovation

Ce développement s'inscrit dans une tendance plus large de DeepSeek-AI, qui a été reconnue pour la publication de recherches fondamentales remettant en question les approches conventionnelles. "DeepSeek continue de proposer des idées de modèles de base que d'autres mettraient des années à tenter", ont observé des membres de la communauté de recherche en IA. "Cela ressemble plus à une recherche orientée vers l'AGI qu'à des ajustements de produits."

La recherche soulève également des questions fascinantes sur la relation future entre la vision et le langage dans les systèmes d'IA. Si les tokens visuels peuvent transporter environ dix fois le contenu sémantique des tokens textuels – une règle empirique qui découle des ratios de compression – les futurs systèmes d'IA pourraient-ils abandonner complètement la tokenisation de texte au profit du traitement visuel ?

"Si cela se développe", ont spéculé les chercheurs, "les LLM de nouvelle génération à long contexte pourraient se souvenir de captures d'écran de pensées au lieu de chaînes de tokens brutes."

La Voie à Suivre

Des questions cruciales demeurent. Comment cette approche se généralise-t-elle au-delà des documents soigneusement formatés au texte libre ? Quelle est la politique optimale de découpage et de résolution pour des mises en page diverses ? Et le seuil de précision peut-il être repoussé plus haut tout en conservant les avantages de la compression ?

L'équipe de CTOL.digital a formulé le défi central : "Comment exactement le texte libre se traduit-il en un rendu qui est le plus compressible possible ?"

Pourtant, même avec ces questions ouvertes, DeepSeek-OCR représente plus qu'une avancée incrémentale dans la reconnaissance optique de caractères. Il propose une manière fondamentalement différente pour les systèmes d'IA de gérer l'un de leurs défis les plus persistants : le traitement efficace d'informations longues et complexes.

À une époque où les systèmes d'IA sont de plus en plus jugés sur leur capacité à maintenir le contexte, à comprendre les nuances et à fonctionner efficacement à grande échelle, la technique de "compression optique de contextes" pourrait s'avérer être plus qu'une astuce d'ingénierie ingénieuse. Elle pourrait être un aperçu de la façon dont l'intelligence artificielle apprend à se souvenir – et à oublier – plus comme nous le faisons.

Le code et les poids du modèle ont été rendus publics, garantissant que la communauté de recherche au sens large peut s'appuyer sur ces découvertes, les valider et les étendre. Reste à savoir si cela représente une exploration temporaire ou un changement durable dans l'architecture de l'IA. Mais pour l'instant, la révolution de la vision a commencé – littéralement.


L'article technique et les détails d'implémentation sont disponibles via les dépôts publics de DeepSeek-AI. L'analyse de l'équipe d'ingénierie de CTOL.digital a été menée de manière indépendante.

Vous aimerez peut-être aussi

Cet article est soumis par notre utilisateur en vertu des Règles et directives de soumission de nouvelles. La photo de couverture est une œuvre d'art générée par ordinateur à des fins illustratives uniquement; ne reflète pas le contenu factuel. Si vous pensez que cet article viole les droits d'auteur, n'hésitez pas à le signaler en nous envoyant un e-mail. Votre vigilance et votre coopération sont inestimables pour nous aider à maintenir une communauté respectueuse et juridiquement conforme.

Abonnez-vous à notre bulletin d'information

Obtenez les dernières nouvelles de l'entreprise et de la technologie avec des aperçus exclusifs de nos nouvelles offres

Nous utilisons des cookies sur notre site Web pour activer certaines fonctions, fournir des informations plus pertinentes et optimiser votre expérience sur notre site Web. Vous pouvez trouver plus d'informations dans notre Politique de confidentialité et dans nos Conditions d'utilisation . Les informations obligatoires se trouvent dans les mentions légales