Nous sommes un groupe de volontaires visant à démarrer avec ** la technologie d'optimisation logicielle intégrée ** comme compétence clé pour faire ressortir les performances matérielles des ** processeurs multicœurs ** et ** l'architecture SIMD **.
Je conteste combien le Deep Learning peut être accéléré avec ** CPU uniquement ** de Raspberry Pi 3/4.
Dans le passé, nous ciblions des frameworks tels que Chainer et darknet, mais maintenant nous essayons d'accélérer l'exécution d'ONNX.
Les résultats à ce stade sont les suivants.
@onnxruntime on RPi4(CPU Only)
— Project-RAIZIN (@ProjectRaizin) September 8, 2020
MobileNetV3(Image clasification)
MobileNetV2-SSDLite(Image detection)
Original vs. Accelerated#RaspberryPi #Python #DeepLearninghttps://t.co/wvBLn9Tfes
À l'origine, Microsoft et Facebook font la promotion du projet, il est donc difficile d'accélérer plusieurs fois, mais j'ai réussi à doubler les performances en réglant im2col, gemm, la fonction d'activation, etc.
De plus, nous avons publié des vidéos de démonstration de divers modèles. Chaîne Youtube
L'approche d'accélération est courante comme indiqué ci-dessous.
Je pense que c'est une caractéristique de nous qu'il n'y a pas d'autre attitude pour presser les chiffons vides tout en prenant un profil et ** un peu plus vite et un peu plus vite **.
Cette fois, je n'ai présenté que les résultats, mais j'aimerais collecter des documents techniques pour chaque élément sous forme de mémorandum et les publier si nécessaire.
Recommended Posts