Chercheurs Pomme opérant dans le domaine deIA ont
publié un article de recherche dans lequel ils décrivent une technique
technique innovante pour mettre en œuvre de grands modèles de langage
même dans des appareils à mémoire limitéeexpliquant une
nouvelle méthode d’utilisation de la mémoire flash.
Les IA génératives textuelles, telles que ChatGPT ou Claude AI, sont
particulièrement exigeantes en termes de mémoire requise pour le
leur fonctionnement. Cela limite donc la capacité à fonctionner
sur des appareils grand public qui disposent normalement d’une quantité limitée de mémoire ;
une quantité limitée de mémoire.
Les chercheurs d’Apple ont abordé le problème en développant
une nouvelle technique qui utilise la mémoire flash, la même mémoire
;
qui, dans un smartphone, est utilisée pour stocker des données et installer des applications ;
applications.
On suppose que la mémoire flash a des vitesses de lecture et d
et d’écriture élevées et que, dans les appareils grand public, elle est généralement présente en quantité
plus abondante que dans la mémoire RAMqui est traditionnellement
utilisée par les LLM (Large Language Models) pour gérer les données nécessaires
à leur fonctionnement. Dans l’article, les chercheurs parlent de deux techniques
spécifiques : la première, appelée « Windowing », est une sorte de mécanisme de
mécanisme de recyclage qui conduit le modèle d’IA à réutiliser des données déjà traitées précédemment ;
rendant le processus plus rapide et plus fluide en n’ayant pas à transférer constamment des données ;
transférer constamment des données, le second, appelé « Row-Column
Le « regroupement », quant à lui, est un mécanisme permettant de « regrouper » les données
afin qu’elles puissent être lues plus rapidement et plus efficacement dans
mémoire flash.
Les deux techniques peuvent être combinées l’une à l’autre et
permettraient aux modèles d’IA de fonctionner jusqu’à deux fois la taille
de la mémoire disponible sur un iPhone, par exemple, avec un incroissance des performances de 4 à 5 fois pour le fonctionnement de l’unité centrale et jusqu’à
; ;
4 à 5 fois pour le fonctionnement du CPU et jusqu’à
à 20-25 fois pour le fonctionnement du GPU.
Cette approche peut représenter une première étape importante pour
la mise en œuvre d’un LLM avancé dans des environnements aux ressources limitées,
en élargissant leur potentiel d’application et leur accessibilité. La disponibilité d’un LLM
disponibilité d’un LLM directement sur l’appareil, dans le cas d’un smartphone tel qu’un iPhone, par exemple
d’un smartphone tel que l’iPhone, peut permettre l’exploitation de fonctions plus avancées de l’assistant vocal Siri ;
des fonctions avancées de l’assistant vocal Siri, telles que la traduction en temps réel ;
traduction en temps réel, ou de nouvelles façons de comprendre et d’utiliser la photographie
la photographie ou les interactions en réalité augmentée.
Ce n’est pas un mystère, cependant, qu’Apple travaille dans ses
laboratoires pour réaliser une version évoluée et avancée de Siri avec
des intégrations profondes avec l’IA et en particulier en développant sa propre version de l’IA générative
propre version de l’IA générative qui serait actuellement reconnue
en interne sous le nom de code « Ajax ». Il est possible que les premières
réalisations pourraient être visibles sur iPhone et iPad d’ici la fin de
l’année prochaine, très probablement avec le lancement d’iOS 18. Pour l’instant, il n’est pas
possible de deviner s’il sera déjà possible d’utiliser
entièrement l’IA sur l’appareil ou si, plus probablement, la première
incarnation pourrait être un hybride nuage/local.