Commit f30838b8 authored by David Peter's avatar David Peter
Browse files

Abstract neu

parent 819bd44e
No preview for this file type
\addcontentsline{toc}{chapter}{Abstract (English)}
\begin{center}\Large\bfseries Abstract (English)\end{center}\vspace*{1cm}\noindent
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of the \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Furthermore, we perform \gls{nas} to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass earlier if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
\gls{kws} is a critical component for speech-based human-computer interaction. \gls{kws} systems actively listen for a limited set of prespecified keywords. Upon detection of a keyword, a full \gls{asr} system is triggered which then listens for a rich set of user commands. Due to its always-on nature, \gls{kws} systems are required to be resource efficient while being accurate enough to maintain a high user-experience. Recently, \glspl{dnn} have become the state-of-the art for \gls{kws} systems because of their outstanding performance.
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of the \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Furthermore, we perform \gls{nas} to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of classification accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass earlier if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
We show that \gls{kws} with \glspl{dnn} can be performed effectively in limited resource environments. By using \gls{nas} only, we obtain a highly accurate model with a classification accuracy of \SI{96.10}{\percent} using only \SI{30.79}{\mega\nothing} \glspl{madds} and \SI{345.70}{\kilo\nothing} parameters. By employing other methods such as quantization, end-to-end models and multi-exit models we are able to further reduce the memory requirements as well as the number of \glspl{madds} per forward pass.
\addcontentsline{toc}{chapter}{Abstract (German)}
\begin{center}\Large\bfseries Abstract (German)\end{center}\vspace*{1cm}\noindent
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der Rechenoperationen zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare Architektursuche für neuronale Netzwerke, welche uns dabei hilft, die Struktur der \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit der Architektursuche gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir die Architektursuche um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an Rechenoperationen. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
\gls{kws} ist eine wichtige Komponente für die sprachbasierte Mensch-Computer Interaktion. \gls{kws} Systeme versuchen aktiv eines von mehreren vordefinierten Schlüsselwörtern zu erkennen. Sobald ein Schlüsselwort erkannt wird, wird ein vollständiges \gls{asr} System aktiviert, welches auch komplexere Sprachbefehle erkennen kann. Aufgrund der ständigen Verfügbarkeit müssen \gls{kws} Systeme möglichst ressourcenschonend sein aber dennoch eine hohe Klassifizierungsgenauigkeit aufweisen, um ein zufriedenstellendes Nutzererlebnis sicherzustellen. In letzter Zeit haben sich \glspl{dnn} aufgrund ihrer herausragenden Leistung zum Stand der Technik für \gls{kws} Systeme entwickelt.
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der \glspl{madds} zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare \gls{nas} Methode, welche uns dabei hilft, die Struktur der \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit \gls{nas} gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir \gls{nas} um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an \glspl{madds}. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Wir zeigen, dass \gls{kws} mit \glspl{dnn} auch in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen effektiv durchgeführt werden kann. Nur durch die Nutzung von \gls{nas} erhalten wir ein hochpräzises Modell mit einer Klassifizierungsgenauigkeit von \SI{96.10}{\percent} bei nur \SI{30.79}{\mega\nothing} \glspl{madds} und \SI{345.70}{\kilo\nothing} Parametern. Durch die Nutzung weiterer Methoden wie der Quantisierung, Ende-zu-Ende Modellen und Multi-Exit Modellen sind wir in der Lage die Speicheranforderungen sowie die Anzahl der \glspl{madds} weiter zu reduzieren.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment