Commit 6c91d484 authored by David Peter's avatar David Peter
Browse files

Update acronyms in abstract and conclusion

parent f30838b8
No preview for this file type
% **************************************************************************************************
% **************************************************************************************************
Resource efficient \glspl{dnn} are the key components in modern \gls{kws} systems. In this thesis, we utilized different methods including \gls{nas}, weight and activation quantization, end-to-end models and multi-exit models to obtain resource efficient \glspl{cnn} for \gls{kws}.
Resource efficient \acrshortpl{dnn} are the key components in modern \acrshort{kws} systems. In this thesis, we utilized different methods including \acrshort{nas}, weight and activation quantization, end-to-end models and multi-exit models to obtain resource efficient \acrshortpl{cnn} for \acrshort{kws}.
We observed that \gls{nas} is an excellent method for obtaining resource efficient and accurate models. Furthermore, \gls{nas} allowed us to explore the accuracy-size tradeoff of the models.
We observed that \acrshort{nas} is an excellent method for obtaining resource efficient and accurate models. Furthermore, \acrshort{nas} allowed us to explore the accuracy-size tradeoff of the models.
With weight and activation quantization, we were able to further reduce the memory requirements of our \gls{kws} models. We observed that using quantization aware training with the \gls{ste}, it is possible to train a model with binary weights and binary activations while still obtaining a reasonable performance. We also explored learned bitwidth quantization where the bitwidth of every layer is learned during training. With learned bitwidth quantization we were able to find the optimal bitwidth for every layer considering the accuracy-size tradeoff that was established by regularizing the cross entropy loss of the model.
With weight and activation quantization, we were able to further reduce the memory requirements of our \acrshort{kws} models. We observed that using quantization aware training with the \acrlong{ste}, it is possible to train a model with binary weights and binary activations while still obtaining a reasonable performance. We also explored learned bitwidth quantization where the bitwidth of every layer is learned during training. With learned bitwidth quantization we were able to find the optimal bitwidth for every layer considering the accuracy-size tradeoff that was established by regularizing the cross entropy loss of the model.
With end-to-end \gls{kws} models, we were able to skip the extraction of hand-crafted speech features and instead perform classification on the raw audio waveforms. By removing the need for hand-crafted speech features we managed to find models with fewer parameters. However, we also observed a small negative performance impact of end-to-end models compared to ordinary models using \glspl{mfcc} as speech features.
With end-to-end \acrshort{kws} models, we were able to skip the extraction of hand-crafted speech features and instead perform classification on the raw audio waveforms. By removing the need for hand-crafted speech features we managed to find models with fewer parameters. However, we also observed a small negative performance impact of end-to-end models compared to ordinary models using \acrshortpl{mfcc} as speech features.
In our last experiment, we explored multi-exit models for \gls{kws} where we compared different exit topologies. Furthermore, we compared distillation based training to ordinary training. Multi-exit models increase the flexibility in a \gls{kws} system substantially, allowing us to interrupt the forward pass early if necessary. However, this increase in flexibility comes at the cost of an increased number of model parameters. We observed that the exit topology has a substantial impact on the performance of a multi-exit model. We also observed that distillation based training is beneficial for training multi-exit models.
In our last experiment, we explored multi-exit models for \acrshort{kws} where we compared different exit topologies. Furthermore, we compared distillation based training to ordinary training. Multi-exit models increase the flexibility in a \acrshort{kws} system substantially, allowing us to interrupt the forward pass early if necessary. However, this increase in flexibility comes at the cost of an increased number of model parameters. We observed that the exit topology has a substantial impact on the performance of a multi-exit model. We also observed that distillation based training is beneficial for training multi-exit models.
\addcontentsline{toc}{chapter}{Abstract (English)}
\begin{center}\Large\bfseries Abstract (English)\end{center}\vspace*{1cm}\noindent
\gls{kws} is a critical component for speech-based human-computer interaction. \gls{kws} systems actively listen for a limited set of prespecified keywords. Upon detection of a keyword, a full \gls{asr} system is triggered which then listens for a rich set of user commands. Due to its always-on nature, \gls{kws} systems are required to be resource efficient while being accurate enough to maintain a high user-experience. Recently, \glspl{dnn} have become the state-of-the art for \gls{kws} systems because of their outstanding performance.
\gls{kws} is a critical component for speech-based human-computer interaction. \gls{kws} systems actively listen for a limited set of prespecified keywords. Upon detection of a keyword, a full \acrlong{asr} system is triggered which then listens for a rich set of user commands. Due to its always-on nature, \gls{kws} systems are required to be resource efficient while being accurate enough to maintain a high user-experience. Recently, \glspl{dnn} have become the state-of-the art for \gls{kws} systems because of their outstanding performance.
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of the \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Furthermore, we perform \gls{nas} to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of classification accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass earlier if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of the \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Furthermore, we perform \gls{nas} to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of classification accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass earlier if necessary. All experiments are conducted on the \acrlong{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
We show that \gls{kws} with \glspl{dnn} can be performed effectively in limited resource environments. By using \gls{nas} only, we obtain a highly accurate model with a classification accuracy of \SI{96.10}{\percent} using only \SI{30.79}{\mega\nothing} \glspl{madds} and \SI{345.70}{\kilo\nothing} parameters. By employing other methods such as quantization, end-to-end models and multi-exit models we are able to further reduce the memory requirements as well as the number of \glspl{madds} per forward pass.
\addcontentsline{toc}{chapter}{Abstract (German)}
\begin{center}\Large\bfseries Abstract (German)\end{center}\vspace*{1cm}\noindent
\gls{kws} ist eine wichtige Komponente für die sprachbasierte Mensch-Computer Interaktion. \gls{kws} Systeme versuchen aktiv eines von mehreren vordefinierten Schlüsselwörtern zu erkennen. Sobald ein Schlüsselwort erkannt wird, wird ein vollständiges \gls{asr} System aktiviert, welches auch komplexere Sprachbefehle erkennen kann. Aufgrund der ständigen Verfügbarkeit müssen \gls{kws} Systeme möglichst ressourcenschonend sein aber dennoch eine hohe Klassifizierungsgenauigkeit aufweisen, um ein zufriedenstellendes Nutzererlebnis sicherzustellen. In letzter Zeit haben sich \glspl{dnn} aufgrund ihrer herausragenden Leistung zum Stand der Technik für \gls{kws} Systeme entwickelt.
\gls{kws} ist eine wichtige Komponente für die sprachbasierte Mensch-Computer Interaktion. \gls{kws} Systeme versuchen aktiv eines von mehreren vordefinierten Schlüsselwörtern zu erkennen. Sobald ein Schlüsselwort erkannt wird, wird ein vollständiges \acrlong{asr} System aktiviert, welches auch komplexere Sprachbefehle erkennen kann. Aufgrund der ständigen Verfügbarkeit müssen \gls{kws} Systeme möglichst ressourcenschonend sein aber dennoch eine hohe Klassifizierungsgenauigkeit aufweisen, um ein zufriedenstellendes Nutzererlebnis sicherzustellen. In letzter Zeit haben sich \glspl{dnn} aufgrund ihrer herausragenden Leistung zum Stand der Technik für \gls{kws} Systeme entwickelt.
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der \glspl{madds} zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare \gls{nas} Methode, welche uns dabei hilft, die Struktur der \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit \gls{nas} gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir \gls{nas} um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an \glspl{madds}. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der \glspl{madds} zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare \gls{nas} Methode, welche uns dabei hilft, die Struktur der \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit \gls{nas} gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir \gls{nas} um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an \glspl{madds}. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \acrlong{gsc} Datensatz evaluiert. Der \acrlong{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Wir zeigen, dass \gls{kws} mit \glspl{dnn} auch in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen effektiv durchgeführt werden kann. Nur durch die Nutzung von \gls{nas} erhalten wir ein hochpräzises Modell mit einer Klassifizierungsgenauigkeit von \SI{96.10}{\percent} bei nur \SI{30.79}{\mega\nothing} \glspl{madds} und \SI{345.70}{\kilo\nothing} Parametern. Durch die Nutzung weiterer Methoden wie der Quantisierung, Ende-zu-Ende Modellen und Multi-Exit Modellen sind wir in der Lage die Speicheranforderungen sowie die Anzahl der \glspl{madds} weiter zu reduzieren.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment