Commit 131cd7b5 authored by David Peter's avatar David Peter
Browse files

Abstract

parent 41104027
No preview for this file type
\addcontentsline{toc}{chapter}{Abstract (English)}
\begin{center}\Large\bfseries Abstract (English)\end{center}\vspace*{1cm}\noindent
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Then, we perform \gls{nas} again to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass early if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of the \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Furthermore, we perform \gls{nas} to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass earlier if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
\addcontentsline{toc}{chapter}{Abstract (German)}
\begin{center}\Large\bfseries Abstract (German)\end{center}\vspace*{1cm}\noindent
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der Rechenoperationen zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare Architektursuche für neuronale Netzwerke, welche uns dabei hilft, die Struktur von \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit der Architektursuche gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir die Architektursuche erneut um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an Rechenoperationen. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der Rechenoperationen zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare Architektursuche für neuronale Netzwerke, welche uns dabei hilft, die Struktur der \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit der Architektursuche gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir die Architektursuche um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an Rechenoperationen. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment