Commit 41104027 authored by David Peter's avatar David Peter
Browse files

Fix mfcc acronyms

parent 7fac8dd0
No preview for this file type
......@@ -5,7 +5,7 @@
\newacronym[]{mse}{MSE}{Mean Squared Error}
\newacronym[]{gsc}{GSC}{Google Speech Commands}
\newacronym[]{kws}{KWS}{Keyword Spotting}
\newacronym[]{mfcc}{MFCC}{Mel Frequency Cepstral Coefficients}
\newacronym[shortplural=MFCCs, longplural=Mel Frequency Cepstral Coefficients]{mfcc}{MFCC}{Mel Frequency Cepstral Coefficient}
\newacronym[]{dft}{DFT}{Discrete Fourier Transform}
\newacronym[]{dct}{DCT}{Discrete Cosine Transform}
\newacronym[shortplural=MBCs, longplural=Mobile Inverted Bottleneck Convolutions]{mbc}{MBC}{Mobile Inverted Bottleneck Convolution}
......
......@@ -6,6 +6,6 @@ We observed that \gls{nas} is an excellent method for obtaining resource efficie
With weight and activation quantization, we were able to further reduce the memory requirements of our \gls{kws} models. We observed that using quantization aware training with the \gls{ste}, it is possible to train a model with binary weights and binary activations while still obtaining a reasonable performance. We also explored learned bitwidth quantization where the bitwidth of every layer is learned during training. Learned bitwidth quantization allowed us to find the optimal bitwidth for every layer considering the accuracy-size tradeoff that was established by regularizing the cross entropy loss of the model.
With end-to-end \gls{kws} models, we were able to skip the extraction of hand-crafted speech features and instead perform classification on the raw audio waveforms. Removing the need for hand-crafted speech features allowed us to find models with fewer parameters. However, we also observed a small negative performance impact of end-to-end models compared to ordinary models using \gls{mfcc} as speech features.
With end-to-end \gls{kws} models, we were able to skip the extraction of hand-crafted speech features and instead perform classification on the raw audio waveforms. Removing the need for hand-crafted speech features allowed us to find models with fewer parameters. However, we also observed a small negative performance impact of end-to-end models compared to ordinary models using \glspl{mfcc} as speech features.
In our last experiment, we explored multi-exit models for \gls{kws} where we compared different exit topologies. Furthermore, we compared distillation based training to ordinary training. Multi-exit models increase the flexibility in a \gls{kws} system substantially, allowing us to interrupt the forward pass early if necessary. However, this increase in flexibility comes at the cost of an increased number of model parameters. We observed that the exit topology has a substantial impact on the performance of a multi-exit model. We also observed that distillation based training is beneficial for training multi-exit models.
\addcontentsline{toc}{chapter}{Abstract (English)}
\begin{center}\Large\bfseries Abstract (English)\end{center}\vspace*{1cm}\noindent
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Then, we perform \gls{nas} again to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \gls{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass early if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
This thesis explores different methods for designing \glspl{cnn} for \gls{kws} in limited resource environments. Our goal is to maximize the classification accuracy while minimizing the memory requirements as well as the number of \glspl{madds} per forward pass. To achieve this goal, we first employ a differentiable \gls{nas} approach to optimize the structure of \glspl{cnn}. After a suitable \gls{kws} model is found with \gls{nas}, we conduct quantization of weights and activations to reduce the memory requirements even further. For quantization, we compare fixed bitwidth quantization and trained bitwidth quantization. Then, we perform \gls{nas} again to optimize the structure of end-to-end \gls{kws} models. End-to-end models perform classification directly on the raw audio waveforms, skipping the extraction of hand-crafted speech features such as \glspl{mfcc}. We compare our models using \glspl{mfcc} to end-to-end models in terms of accuracy, memory requirements and number of \glspl{madds} per forward pass. We also show that multi-exit models provide a lot of flexibility for \gls{kws} systems, allowing us to interrupt the forward pass early if necessary. All experiments are conducted on the \gls{gsc} dataset, a popular dataset for evaluating the classification accuracy of \gls{kws} applications.
\addcontentsline{toc}{chapter}{Abstract (German)}
\begin{center}\Large\bfseries Abstract (German)\end{center}\vspace*{1cm}\noindent
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der Rechenoperationen zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare Architektursuche für neuronale Netzwerke, welche uns dabei hilft, die Struktur von \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit der Architektursuche gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir die Architektursuche erneut um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \gls{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an Rechenoperationen. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Diese Masterarbeit beschäftigt sich mit unterschiedlichen Methoden zur Entwicklung von \glspl{cnn} für \gls{kws} Anwendungen in Umgebungen mit eingeschränkten Speicher- und Rechenressourcen. Unser Ziel ist es, die Klassifizierungsgenauigkeit zu maximieren und gleichzeitig die Speicheranforderung sowie die Anzahl der Rechenoperationen zu minimieren. Um dieses Ziel zu erreichen, setzen wir auf eine differenzierbare Architektursuche für neuronale Netzwerke, welche uns dabei hilft, die Struktur von \glspl{cnn} zu optimieren. Nachdem ein entsprechendes \gls{kws} Modell mit der Architektursuche gefunden wurde, quantisieren wir die Gewichte und Aktivierungen des Modells, um die Speicheranforderungen weiter zu minimieren. Beim Quantisieren vergleichen wir die Quantisierung mit fixen Bitbreiten mit der Quantisierung, bei der die Bitbreiten automatisch bestimmt werden. Im Anschluss verwenden wir die Architektursuche erneut um die Struktur von Ende-zu-Ende \gls{kws} Modellen zu optimieren. Ende-zu-Ende Modelle führen die Klassifizierung direkt anhand der rohen Audiodaten durch und überspringen dabei die Merkmalsextraktion von z.B. \glspl{mfcc}. Wir vergleichen unsere \gls{mfcc} Modelle mit Ende-zu-Ende Modellen in Bezug auf die Klassifizierungsgenauigkeit, der Speicheranforderungen sowie der Anzahl an Rechenoperationen. Wir zeigen außerdem, dass Multi-Exit Modelle viel Flexibilität in Bezug auf \gls{kws} Systeme liefern und uns erlauben, den Klassifizierungsvorgang frühzeitig zu unterbrechen, sofern dies benötigt wird. Alle Experimente wurden auf dem \gls{gsc} Datensatz evaluiert. Der \gls{gsc} Datensatz ist ein populärer Datensatz um die Klassifizierungsgenauigkeit von \gls{kws} Systemen zu evaluieren.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment