Différences entre versions de « Projets:Chuchoter »

De wikilab
Ligne 45 : Ligne 45 :
 
==Etapes de fabrication pas à pas==
 
==Etapes de fabrication pas à pas==
 
Voir fichier Readme sur Github.
 
Voir fichier Readme sur Github.
 
==Durée de fabrication du prototype final==
 
  
 
==Journal de bord==
 
==Journal de bord==

Version du 31 janvier 2022 à 17:39

Description du projet

Malgré l'existence de nombreuses prothèses auditives sur le marché, il semble que la filtration des bruits ambiant laisse encore à désirer. Ce projet vise à prototyper une prothèse auditive tirant parti des récentes avancées dans le domaine du Deep Learning.

L'usage du Deep Learning nous semble particulièrement approprié pour différentes raisons:

  • La communauté Deep Learning est très ouverte: les articles de recherches sont rendus accessibles gratuitement, accompagné d'implémentation open source robustes et bien documentées. Cela rends ces techniques faciles à exploiter.
  • Il est possible de faire tourner ces algorithmes sur du hardware abordable et disponible au grand publique (Nvidia Jetson Nano).
  • Le Deep Learning pour apporter une robustesse plus difficile à atteindre avec du traitement du signal classique. Par exemple, un filtrage par bande ne peut pas filtrer les bruits dont les fréquences chevauchent la voix. À l'inverse, un algorithme de Deep Learning peut reconstruire le signal et ainsi filtrer les bruits, peu importe leur fréquence.
  • Il est possible d'entrainer des réseaux de neurones pour différentes tâches. On peut imaginer filtrer les bruits ambiants et isoler les voix dans un contexte de réunion ou isoler la musique et supprimer les voix dans un contexte de concert.

Ce prototype utilise le code de l'article Real Time Speech Enhancement in the Waveform Domain (Interspeech 2020) et le rends deployable sur un Jetson Nano. Couplé à une interface audio disposant de micros cela permet d'amplifier les voix et de les retransmettre dans un casque audio.

Les deux principaux challenges restants sont:

  • La latence. 73.3ms sont actuellement nécessaires pour traiter le signal. Le son des interlocuteurs est donc un peu trop décalé pour qu'il soit synchronisé avec les lèvres. Cela rends l'association des mouvement de la bouche aux sons difficile. S'entendre en double avec cette latence rend également l'expression orale compliquée. Heureusement, il semble possible d'optimiser le modèle (cf. TensorRT).
  • Transmettre le son à l'utilisateur. Utiliser un casque audio par dessus un appareil auditif est dangereux (risque de larsen) et il semble difficile de se procurer du hardware de prothèse auditives. Une piste pourrait être de reverse engineer une aide auditive pour comprendre comment utiliser ses micros et son haut-parleur? Ou utiliser une prothèse auditive disposant d'une connectivité bluetooth? Ou continuer d'utiliser un simple casque pour les malentendants non appareillés.

Cahier des charges

Analyse de l'existant

Equipe (Porteur de projet et contributeurs)

  • Porteurs du projet : Armand du Parc Locmaria
  • Concepteurs/contributeurs : Jean Dunston, Pierre Herduin, Adrien Loizeau, Paul Marquereau
  • Animateur (coordinateur du projet) : ECE Paris
  • Fabmanager référent :
  • Responsable de documentation : Armand du Parc Locmaria

Matériel nécessaire

  • 1x Nvidia Jetson Nano Developper Kit (4GB) - 144€
  • 1x Interface Audio (nous utilisons un Zoom H4N mais n'importe quel micro/casque compatible Linux devrait fonctionner) - 10-200€
  • 1x Batterie Portable (5V >2A) - 10-20€
  • 1x Casque Audio - 10-100€
  • 1x USB A vers barrel jack 2.1mm - 10€

Outils nécessaires

Aucuns

Coût

184-474€

Fichiers source

https://github.com/Armandpl/jetson_denoiser

Etapes de fabrication pas à pas

Voir fichier Readme sur Github.

Journal de bord