{"title":"AI SoC-Based Accelerator for Speech Classification Accélérateur de classification de la parole basé sur un AI SoC","authors":"Christopher DeSantis;Ahmed Refaey Hussein","doi":"10.1109/ICJECE.2022.3199563","DOIUrl":null,"url":null,"abstract":"Speech classification acceleration using field-programmable gate arrays (FPGAs) is a well-studied field and enables the potential to gain both speed and better energy efficiency over other processor-intensive classifiers. System-on-chip (SoC) architecture allows for an integrated system between programmable logic and processor and for increased bandwidth communications to on- chip peripherals and memory. This article serves as an investigation of the utility of an edge-based support-vector machine (SVM) implemented onto a Zynq-XC7Z020 multiprocessor system on a chip (MPSoC) for the acceleration of three speech class pairs. The system allows for a parallelized structure, which yielded a faster classifier model. The results were found to be an acceleration factor of \n<inline-formula> <tex-math>$2.08\\times $ </tex-math></inline-formula>\n. This appears to have come at the cost of a decrease in prediction accuracy, lowering from 92.5% to 83.5% positive prediction percentage likely due to decreased data resolution. The resolution used in this model was a 16-bit fixed-point format for the hardware interpretation and a floating-point format for the software benchmark. The resource usage of the FPGA was also analyzed for both overlays and can yield a 21% reduction in CPU usage. Résumé—L’accélération de la classification de la parole à l’aide de réseaux de portes programmables par l’utilisateur (FPGAs) est un domaine bien étudié et offre la possibilité de gagner à la fois en vitesse et en efficacité énergétique par rapport à d’autres classificateurs nécessitant un processeur. L’architecture système sur une puce (SoC) permet un système intégré entre la logique programmable et le processeur et une augmentation de la bande passante des communications vers les périphériques sur la puce et la mémoire. Cet article est une étude de l’utilité d’une machine à vecteur de support (SVM) basée sur les périphéries et mise en œuvre sur un système multiprocesseur Zynq-XC7Z020 sur une puce (MPSoC) pour l’accélération de trois paires de classes vocales. Le système permet une structure parallélisée, ce qui permet d’obtenir un modèle de classification plus rapide. Les résultats se sont révélés être un facteur d’accélération de 2,\n<inline-formula> <tex-math>$08\\times $ </tex-math></inline-formula>\n. Cela semble s’être fait au prix d’une diminution de la précision de prédiction, passant de 92,5 % à 83,5 % de pourcentage de prédiction positive, probablement en raison de la diminution de la résolution des données. La résolution utilisée dans ce modèle était un format à virgule fixe de 16 bits pour l’interprétation matérielle et un format à virgule flottante pour le benchmark logiciel. L’utilisation des ressources du FPGA a également été analysée pour les deux superpositions et permet de réduire de 21 % l’utilisation du CPU.","PeriodicalId":100619,"journal":{"name":"IEEE Canadian Journal of Electrical and Computer Engineering","volume":"45 3","pages":"222-231"},"PeriodicalIF":2.1000,"publicationDate":"2022-10-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"IEEE Canadian Journal of Electrical and Computer Engineering","FirstCategoryId":"1085","ListUrlMain":"https://ieeexplore.ieee.org/document/9917251/","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"COMPUTER SCIENCE, HARDWARE & ARCHITECTURE","Score":null,"Total":0}
引用次数: 0
Abstract
Speech classification acceleration using field-programmable gate arrays (FPGAs) is a well-studied field and enables the potential to gain both speed and better energy efficiency over other processor-intensive classifiers. System-on-chip (SoC) architecture allows for an integrated system between programmable logic and processor and for increased bandwidth communications to on- chip peripherals and memory. This article serves as an investigation of the utility of an edge-based support-vector machine (SVM) implemented onto a Zynq-XC7Z020 multiprocessor system on a chip (MPSoC) for the acceleration of three speech class pairs. The system allows for a parallelized structure, which yielded a faster classifier model. The results were found to be an acceleration factor of
$2.08\times $
. This appears to have come at the cost of a decrease in prediction accuracy, lowering from 92.5% to 83.5% positive prediction percentage likely due to decreased data resolution. The resolution used in this model was a 16-bit fixed-point format for the hardware interpretation and a floating-point format for the software benchmark. The resource usage of the FPGA was also analyzed for both overlays and can yield a 21% reduction in CPU usage. Résumé—L’accélération de la classification de la parole à l’aide de réseaux de portes programmables par l’utilisateur (FPGAs) est un domaine bien étudié et offre la possibilité de gagner à la fois en vitesse et en efficacité énergétique par rapport à d’autres classificateurs nécessitant un processeur. L’architecture système sur une puce (SoC) permet un système intégré entre la logique programmable et le processeur et une augmentation de la bande passante des communications vers les périphériques sur la puce et la mémoire. Cet article est une étude de l’utilité d’une machine à vecteur de support (SVM) basée sur les périphéries et mise en œuvre sur un système multiprocesseur Zynq-XC7Z020 sur une puce (MPSoC) pour l’accélération de trois paires de classes vocales. Le système permet une structure parallélisée, ce qui permet d’obtenir un modèle de classification plus rapide. Les résultats se sont révélés être un facteur d’accélération de 2,
$08\times $
. Cela semble s’être fait au prix d’une diminution de la précision de prédiction, passant de 92,5 % à 83,5 % de pourcentage de prédiction positive, probablement en raison de la diminution de la résolution des données. La résolution utilisée dans ce modèle était un format à virgule fixe de 16 bits pour l’interprétation matérielle et un format à virgule flottante pour le benchmark logiciel. L’utilisation des ressources du FPGA a également été analysée pour les deux superpositions et permet de réduire de 21 % l’utilisation du CPU.