Top 6 projektów przetwarzania mowy i tematów dla początkujących i doświadczonych [2022]
Opublikowany: 2021-01-03Wszyscy słyszeliśmy o klasyfikacji tekstu, klasyfikacji obrazów, ale czy próbowałeś klasyfikacji audio? Zostaw klasyfikację; jest mnóstwo innych rzeczy, które możemy zrobić w audio, wykorzystując sztuczną inteligencję i głębokie uczenie. W tym artykule będziemy rozmawiać o różnych projektach przetwarzania mowy.
Możesz pracować nad tymi projektami, aby lepiej poznać różne zastosowania sztucznej inteligencji w analizie dźwięku i dźwięku. Od klasyfikacji audio po systemy rekomendacji dla muzyki, na tej liście jest wiele pomysłów na projekty. Więc zanurkujmy.
Spis treści
Projekty i tematy dotyczące przetwarzania mowy
1. Klasyfikuj dźwięk
Klasyfikacja audio jest jednym z najbardziej pożądanych projektów przetwarzania mowy. Ponieważ uczenie głębokie koncentruje się na budowaniu sieci przypominającej ludzki umysł, niezbędne jest również rozpoznawanie dźwięku. Podczas gdy klasyfikacja obrazów stała się bardzo zaawansowana i rozpowszechniona, klasyfikacja audio jest wciąż stosunkowo nową koncepcją.
Możesz więc pracować nad projektem klasyfikacji audio i z łatwością wyprzedzić swoich rówieśników. Możesz się zastanawiać, jak zacząłbyś pracować nad projektem klasyfikacji dźwięku, ale nie martw się, ponieważ Google ma twoje plecy dzięki AudioSet. AudioSet to obszerna kolekcja oznaczonych dźwięków, które zebrali z filmów na YouTube. Wszystkie trwają 10 sekund i są niesamowicie zróżnicowane.
Możesz użyć plików audio obecnych w AudioSet do trenowania i testowania swojego modelu. Są poprawnie oznakowane, więc praca z nimi jest stosunkowo prostsza. Obecnie w AudioSet znajdują się 632 klasy zdarzeń dźwiękowych i ponad dwa miliony klipów dźwiękowych. Sprawdź Google AudioSet tutaj .
Jako początkujący skoncentruj się na wyodrębnieniu określonych funkcji z pliku audio i analizie ich przez sieć neuronową. Możesz użyć małych klipów audio do trenowania sieci neuronowej.

Dodatkowe wskazówki
Korzystaj z funkcji Data Augmentation, aby uniknąć nadmiernego dopasowania, które bardzo by Ci przeszkadzało podczas przeprowadzania klasyfikacji audio. Dodatkowo do przeprowadzenia klasyfikacji dźwięku zalecamy użycie splotowej sieci neuronowej, znanej również jako CNN. Możesz także użyć spowolnienia lub przyspieszenia dźwięku, aby dopasować go do potrzeb swojego modelu.
2. Generuj odciski palców audio
Jedną z najnowszych i imponujących technologii jest odcisk palca audio, dlatego dodaliśmy go do naszej listy projektów przetwarzania mowy. Kiedy generujesz sygnał audio przez wyodrębnienie odpowiednich cech akustycznych z fragmentu audio, a następnie kondensujesz określony sygnał audio, nazywamy ten proces odciskiem palca audio. Można powiedzieć, że dźwiękowy odcisk palca to podsumowanie konkretnego sygnału dźwiękowego. Mają w sobie nazwę „odcisk palca”, ponieważ każdy dźwiękowy odcisk palca jest unikalny, podobnie jak ludzkie odciski palców.
Generując dźwiękowe odciski palców, możesz w dowolnym momencie zidentyfikować źródło określonego dźwięku. Shazam jest prawdopodobnie najbardziej znanym przykładem aplikacji do pobierania odcisków palców audio. Shazam to aplikacja, która pozwala ludziom identyfikować utwory, słuchając ich niewielkiej części.
Dodatkowe wskazówki
Częstym problemem w generowaniu odcisków palców dźwiękowych jest szum w tle. Podczas gdy niektórzy ludzie używają oprogramowania do eliminacji szumów w tle, możesz spróbować przedstawić dźwięk w innym formacie i usunąć niepotrzebny bałagan z pliku. Następnie możesz zaimplementować wymagane algorytmy do rozróżniania odcisków palców.
Przeczytaj więcej: Głębokie uczenie a sieci neuronowe: różnica między głębokim uczeniem a sieciami neuronowymi
3. Oddzielne źródła dźwięku
Innym powszechnym tematem wśród projektów przetwarzania mowy jest separacja źródeł dźwięku. Mówiąc prościej, separacja źródeł audio skupia się na rozróżnianiu różnych typów sygnałów źródłowych audio obecnych w środku sygnałów. Separację źródeł dźwięku wykonujesz codziennie. Zgrubnym przykładem separacji źródeł dźwięku w prawdziwym życiu jest rozróżnianie tekstu piosenki. W takim przypadku oddzielasz sygnały audio tekstu od reszty muzyki. Aby to zrobić, możesz również użyć głębokiego uczenia!
Aby pracować nad tym projektem, możesz użyć zestawów danych LibriSpeech i UrbanNoise8k. Pierwsza z nich to zbiór klipów dźwiękowych przedstawiających osoby czytające książki bez żadnych dźwięków w tle, natomiast druga to zbiór dźwięków w tle. Korzystając z obu z nich, z łatwością stworzysz model, który potrafi odróżnić od siebie określone sygnały audio. Możesz konwertować spektrogramy, aby ułatwić sobie pracę.
Dodatkowe wskazówki
Pamiętaj, aby użyć funkcji straty, ponieważ skupia się ona na tym, którą część musisz zminimalizować. Korzystając z funkcji utraty, możesz znacznie łatwiej nauczyć swój model ignorowania dźwięków tła. Oto przykład doskonałej aplikacji do separacji źródeł dźwięku .
4. Segmentuj dźwięk
Segmentacja odnosi się do dzielenia czegoś na różne części zgodnie z ich cechami. Tak więc segmentacja audio polega na segmentacji sygnałów audio zgodnie z ich unikalnymi właściwościami. Jest to kluczowa część projektów przetwarzania mowy i musisz przeprowadzić segmentację dźwięku w prawie wszystkich wymienionych tutaj projektach. Jest podobny do czyszczenia danych, ale w formacie audio.
Doskonałym zastosowaniem segmentacji dźwięku jest monitorowanie serca, w którym można analizować dźwięk bicia serca i oddzielać jego dwa segmenty w celu lepszej analizy. Innym ogólnym zastosowaniem segmentacji dźwięku jest rozpoznawanie mowy, gdzie system może oddzielać słowa od szumu tła i poprawiać wydajność oprogramowania do rozpoznawania mowy.
Dodatkowe wskazówki

Oto doskonały projekt segmentacji audio opublikowany w prasie MECS. Omawia podstawy automatycznej segmentacji dźwięku i proponuje wiele architektur segmentacji dla różnych zastosowań. Przejście przez nią z pewnością przydałoby się lepiej zrozumieć segmentację dźwięku.
5. Automatyczne tagi muzyczne
Ten projekt jest podobny do projektu klasyfikacji audio, który omawialiśmy wcześniej. Jest jednak niewielka różnica. Tagowanie muzyki pomaga w tworzeniu metadanych utworów, dzięki czemu ludzie mogą je łatwo znaleźć w obszernej bazie danych. W tagowaniu muzyki musisz pracować z wieloma klasami. Musisz więc zaimplementować algorytm klasyfikacji wieloetykietowej. Jednak, jak mówiliśmy w poprzednich projektach, zaczynamy od podstaw, czyli funkcji audio.
Następnie użyjemy klasyfikatora, który oddziela pliki audio według podobieństw w ich funkcjach. W przeciwieństwie do klasyfikacji dźwięku, którą omówiliśmy w powyższym projekcie, będziemy musieli użyć tutaj algorytmu klasyfikacji wieloetykietowej.
W ramach ćwiczenia powinieneś zacząć od zestawu danych Million Song Dataset, darmowej kolekcji popularnych utworów. Zestaw danych nie zawiera dźwięku, a zawiera tylko funkcje, więc obszerna sekcja jest gotowa. Możesz łatwo trenować i testować swój model, korzystając z zestawu danych Million Song. Sprawdź zbiór danych Million Song tutaj .
Dodatkowe wskazówki
Do pracy nad tym projektem możesz używać CNN. Zapoznaj się z tym studium przypadku, które szczegółowo omawia tagowanie audio i wykorzystuje do tego zadania Keras i CNN.
6. System rekomendacji dla muzyki
Systemy polecające są obecnie bardzo popularne. Od eCommerce po media, prawie każda branża B2C wdraża je, aby czerpać z nich korzyści. System rekomendacji sugeruje użytkownikowi produkty lub usługi zgodnie z jego przeszłymi zakupami lub zachowaniem. System rekomendacji Netflix jest prawdopodobnie najbardziej znany zarówno wśród profesjonalistów, jak i entuzjastów sztucznej inteligencji. Jednak w przeciwieństwie do systemu rekomendacji Netflix, Twój system rekomendacji będzie analizował dźwięk, aby przewidzieć zachowanie użytkownika. Platformy do strumieniowego przesyłania muzyki, takie jak Spotify, już wdrażają takie systemy rekomendacji, aby poprawić wrażenia użytkownika.
Jest to projekt na poziomie zaawansowanym, który możemy podzielić na następujące sekcje:
- Najpierw musisz stworzyć system klasyfikacji dźwięku, który będzie w stanie odróżnić specyficzne cechy utworu od drugiego. Ten system przeanalizuje utwory, których najczęściej słucha nasz użytkownik.
- Następnie będziesz musiał zbudować system rekomendacji, który przeanalizuje te cechy i znajdzie wśród nich wspólne atrybuty.
- Następnie system klasyfikacji dźwięku znajdzie funkcje obecne w innych utworach, których nasz użytkownik jeszcze nie słuchał.
- Gdy już będziesz mieć dostęp do tych funkcji, Twój system rekomendacji porówna je z wynikami i poleci więcej utworów według nich.
Chociaż ten projekt może wydawać się nieco skomplikowany, po zbudowaniu obu modeli wszystko stanie się łatwiejsze.
Dodatkowe wskazówki
System rekomendacji skupia się na algorytmach klasyfikacji. Jeśli nie tworzyłeś go w przeszłości, powinieneś najpierw przećwiczyć jego budowanie przed przejściem do tego projektu.

Możesz też zacząć od małego zestawu danych utworów, klasyfikując je według gatunku lub wykonawcy. Na przykład, jeśli użytkownik słucha The Weeknd, jest bardzo prawdopodobne, że będzie słuchał innych piosenek z jego gatunków, takich jak R&B i Pop. Pomoże Ci to skrócić bazę danych dla Twojego systemu rekomendacji.
Dowiedz się więcej: 13 ciekawych pomysłów i tematów na projekty sieci neuronowych dla początkujących
Dowiedz się więcej o głębokim uczeniu
Analiza dźwięku i rozpoznawanie mowy to stosunkowo nowe technologie niż ich odpowiedniki tekstowe i wizualne. Jednak, jak widać na tej liście, w tej dziedzinie występują różne implementacje i możliwości. Dzięki sztucznej inteligencji i głębokiemu uczeniu możemy spodziewać się w przyszłości bardziej zaawansowanej analizy dźwięku.
Te projekty przetwarzania mowy to tylko wierzchołek góry lodowej. Dostępnych jest wiele innych zastosowań uczenia się danych. Jeśli chcesz poznać więcej projektów głębokiego uczenia się, zalecamy te zasoby:
- 13 pomysłów na projekty sieci neuronowych
- 7 najlepszych projektów głębokiego uczenia się na Github, które powinieneś wiedzieć
- 16 ekscytujących pomysłów na projekty głębokiego uczenia się
Możesz także wziąć udział w kursie uczenia maszynowego i głębokiego uczenia się, aby stać się biegłym ekspertem. Kurs zapewni Ci szkolenie od liderów branży poprzez projekty, filmy i materiały do nauki.
Czym jest przetwarzanie mowy w sztucznej inteligencji?
Przetwarzanie mowy to komputerowe rozumienie głosu. Jest to proces przekształcania sygnału mowy w użyteczne informacje dla użytkowników. Przetwarzanie mowy polega na zamianie ciągłego analogowego sygnału mowy na dyskretny sygnał cyfrowy. Chodzi o zamianę fal dźwiękowych na informacje do odczytu maszynowego. Przetwarzanie mowy to w zasadzie poddziedzina informatyki, która zapewnia metody konwersji sygnałów mowy na tekst lub inne przydatne dane. Najczęstszym zastosowaniem przetwarzania mowy jest konwersja sygnałów mowy na dane tekstowe. W tym przypadku przetwarzanie mowy zajmuje się głównie modelowaniem sygnału mowy i implementacją odpowiedniego silnika rozpoznawania mowy.
Jaki algorytm jest używany do rozpoznawania mowy?
Algorytmy rozpoznawania mowy są bardzo zaawansowane. Algorytmy te konwertują sygnały głosowe na znaki tekstowe. Głównym algorytmem rozpoznawania mowy jest ukryty model Markowa. Algorytm ten został zaimplementowany w wielu systemach operacyjnych, takich jak Mac OS, iPhone, Android i inne. Oprogramowanie do rozpoznawania mowy działa na tym konkretnym algorytmie, przełączając się między różnymi stanami. Algorytm ten zostanie w niedalekiej przyszłości zastąpiony przez sztuczną inteligencję głębokiego uczenia (sztuczną inteligencję), ponieważ algorytm ten nie wymaga żadnej inżynierii funkcji.
Jakie są zastosowania rozpoznawania mowy?
Rozpoznawanie mowy to proces konwersji wypowiadanych słów na tekst. W obszarach takich jak call center może to być bardzo przydatna technologia. Specjalista z call center może obsłużyć wiele połączeń jednocześnie, używając rozpoznawania mowy do dyktowania informacji o rozmowie. Ponadto w środowisku biurowym rozpoznawanie mowy może być używane do wpisywania dokumentów. Ponadto tę technologię można wykorzystać w innych obszarach, takich jak gry. Wiele gier pozwala teraz użytkownikom poruszać się po menu za pomocą głosu.