Skip to main content

Thesis defence of Florent Crozet (CDSI team): Extreme Learning Machine for embedded neural networks

Thesis defence / CDSI

On October 24, 2024

Florent CROZET - CDSI team

Direction of the thesis
Stéphane MANCINI - Thesis director - Associate professor - Grenoble INP/TIMA
Marina NICOLAS - Co-thesis supervisor - Research project manager - ENVA (Ecole Nationale Vétérinaire d'Alfort) - ANSES

Composition of the jury
François BERRY
- Rapporteur - Full professor - Université Clermont Auvergne
Virginie FRESSE - Rapporteur - Full professor - Université de Saint-Étienne
Laurent FESQUET - Examinator - Associate professor - Grenoble INP/TIMA
Dominique GINHAC - Examinator - Full professor - Université de Bourgogne
Stéphane MANCINI - Guest - Associate professor - Grenoble INP/TIMA
Marina NICOLAS - Guest - Engineer - STMicroelectronics

Title: Extreme Learning Machine for embedded neural networks
Keywords: Vision sensor, CNN, ELM, pseudo-random number generator, software optimization
Abstract
: Artificial intelligence (AI) is already integrated into several applications. The achieved results of AI algorithms surpass state-of-the-art algorithms in several fields, especially in computer vision with convolutional neural networks (CNNs). In the wide range of applications, some cannot be processed on a data center due to real-time processing requirements or a lack of internet connection. Convolutional neural networks have to be processed on the device that acquires the data. However, this kind of devices is low-power, with a tiny memory footprint and low computational capability. A neural network, which require considerable memory, need to be compressed in order to fit within the device's memory and to be processed on embedded devices. The challenge is to decrease the size of the neural network without degrading its results. Compression algorithms are proposed to reduce the size of neural networks with two main strategies. The first strategy reduces the number of necessary weights to perform the inference with a limited set of weights. The second strategy reduces the memory size of the weights to perform the inference with a lower memory footprint. In addition, both strategies can be combined to further reduce the memory size of neural networks. However, the first strategy generally adds constraints to the device, with a specific decompression stage that still limits the deployment of embedded neural networks, while the second strategy is more straightforward. In this thesis, a new compression method for neural networks is proposed. Taking into account the decompression stage of the weights for an embedded inference, the algorithm works with straightforward but efficient tools: pseudo-random number generators. To reduce the number of stored weights, our compression algorithm introduces pseudo-random weights in the neural network. The seeds used to generate pseudo-random weights are efficiently stored. At the inference stage, pseudo-random weights are generated on-the-fly to process the inference, using the previously stored seeds. Our compression method is tested on different CNN architectures to assess its genericity and can be applied to a wide range of CNNs. Its different tuning parameters can be adjusted to fit the hardware capabilities, in order to maximize the accuracy level. In addition, various pseudo-random number generators can be used, provided that both the compression and the inference stages use the same one. Our assessments on CIFAR-10 and CIFAR-100 datasets underline an improvement of the compression gain compared to existing CNN compression solutions, with a low accuracy degradation. For VGG16, our method, combined with pruning and quantization, reduces the network memory size by a factor of 60 and only reduces its accuracy level of 2%. For MobileNetV2, an optimized architecture, our method, with the use of quantization, reduces the network memory size by a factor of 5.3 and reduces its accuracy level of 4%.

Titre : Extreme Learning Machine pour réseau de neurones embarqué
Mots-clés : Capteur de vision,optimisation algorithmique,CNN,ELM,Générateur de nombres pseudo-aléatoires
Résumé :
L’intelligence artificielle est déjà présente dans de nombreuses applications. Les résultats obtenus par les algorithmes d’IA surpassent ceux des algorithmes de l’état de l’art dans plusieurs domaines, notamment dans la vision par ordinateur avec les réseaux de neurones convolutifs (CNNs). Dans le large spectre des applications, certaines ne peuvent pas être exécutée dans un centre de données à cause de contraintes temps réel ou d’un manque de connexion internet. Les réseaux de neurones convolutifs doivent alors être exécutés sur l’appareil qui acquiert les données. Cependant, ce type d’appareils consomme peu d’énergie, dispose d’une faible empreinte mémoire ainsi qu’une faible capacité de calculs. A l’inverse, un réseau de neurones, qui requiert une forte empreinte mémoire, doit être compressé pour loger dans la mémoire de l’appareil et être exécuté sur des systèmes embarqués. Le défi est alors de diminuer la taille mémoire d’un réseau de neurones tout en limitant la dégradation des résultats. Des algorithmes de compression sont proposés pour réduire la taille mémoire des réseaux de neurones suivant deux stratégies. La première stratégie vient réduire le nombre de poids nécessaires afin de réaliser l’inférence avec une ensemble de poids réduits. La seconde stratégie vient réduire la taille mémoire des poids pour réaliser l’inférence avec une taille mémoire plus petite. En plus, les deux stratégies peuvent être combinées pour réduire davantage la taille mémoire des réseaux de neurones. Cependant, la première stratégie ajoute généralement des contraintes matérielles, avec une étape de décompression spécifique qui limite encore le déploiement des réseaux de neurones embarqués, alors que la seconde stratégie est plus directe. Dans cette thèse, une nouvelle méthode de compression des réseaux de neurones est proposée. En considérant l’étape de décompression des poids lors de l’inférence embarquée, l’algorithme utilise un outil simple mais efficace : les générateurs de nombres pseudo-aléatoires. Pour réduire le nombre de poids stockés en mémoire, notre algorithme introduit des poids pseudo-aléatoires dans le réseau de neurones. Les graines utilisées pour générer ces poids sont stockés. Pendant l’inférence, les poids pseudo-aléatoires sont alors générés à la volée pour calculer la sortie du réseau, à partir des graines stockées. Notre méthode de compression est testée sur différentes architectures CNN afin d'évaluer sa généricité et ainsi peut être appliquée à une large gamme de CNNs. Ses différents paramètres peuvent être ajustés en fonction des capacités matérielles, afin de maximiser le niveau de précision. En outre, divers générateurs de nombres pseudo-aléatoires peuvent être utilisés, à condition que les étapes de compression et d'inférence utilisent le même générateur. Nos évaluations sur les ensembles de données CIFAR-10 et CIFAR-100 soulignent une amélioration du gain de compression par rapport aux solutions de compression CNN existantes, avec une faible dégradation de la précision. Pour VGG16, notre méthode, combinée à l'élagage et à la quantification, réduit la taille de la mémoire du réseau d'un facteur 60 et ne réduit son niveau de précision que de 2 %. Pour MobileNetV2, une architecture optimisée, notre méthode, avec l'utilisation de la quantification, réduit la taille de la mémoire du réseau d'un facteur de 5,3 et réduit son niveau de précision de 4 %.

Date

On October 24, 2024
Complément date

24/10/2024 - 14:00

Localisation

Complément lieu

Grenoble INP - Amphi Gosse

Submitted on July 19, 2024

Updated on July 23, 2024