Bevor ein neuronales Netz für die Ausführung auf einem Edge-Gerät konvertiert wird, sollte das Modell quantisiert und optimiert werden (siehe Modellkomprimierung). Dies umfasst Techniken wie bspw. Pruning oder Knowledge Distillation, die dazu beitragen, die Modellgröße zu reduzieren und die Effizienz auf Edge-Geräten zu steigern. Diese Optimierungsschritte können sehr entscheidend sein, um sicherzustellen, dass das Modell auf ressourcenbeschränkten Geräten die gewünschten Inferenzzeiten erreicht.