Pomocné technologie pro rozpoznávání hlasu, jako je Alexa od Amazonu, dělají život pohodlnější pro ty, kteří slyší, ale co s komunitou neslyšících? Abhishek Singh, známý svou AR verzí hry Super Mario Bros., vyvinul řešení.
Singh rozpoznal dva problémy se zařízeními, jako je Alexa. Za prvé, aktivace hlasu nefunguje dobře s nezřetelným hlasovým vstupem, což je problematické jak pro neslyšící, tak pro lidi s problémy řeči. Za druhé, zařízení jako Alexa reagují pomocí zvuků.
K překlenutí těchto rozdílů se Singh obrátil na software společnosti Google s otevřeným zdrojovým kódem. Tensorflow je platforma pro strojové učení, která umožňuje vývojářům tyto algoritmy využívat bez nutnosti kódování od samotného začátku. Singh naučil svou platformu k rozpoznání amerického znakového jazyka (ASL). Udělal to tak, že natočil video sebe, jak provádí znakovou řeč. Opakováním tohoto procesu několikrát znak po znaku dokázal naučit neuronové sítě pro rozpoznávání obrazu do softwaru. Po tomto procesu byl Singh schopen provádět znakovou řeč přes webovou kameru notebooku, algoritmus znakovou řeč rozeznal a poté zobrazil odpovídající text na obrazovce. Laptop pak vysloví tento příkaz pomocí softwaru pro čtení textu. To aktivuje Alexu, která pak reaguje na vstupní zadání. Uživatel pak může číst reakci Alexy, protože ta je diktována na obrazovku.
Singh přiznává, že jeho metoda je spíš nepřímé řešení, které přímo reaguje problém. Singh doufá, že si vývojáři budou více vědomi inkluzivity při vytváření podpůrné technologie poukázáním na tento problém. Singh plánuje brzy vydat verzi softwaru s otevřeným zdrojovým kódem, aby mohli vývojáři využít jeho práci pro jiné projekty.