Wraz z rozwojem technologii informacyjnej rośnie rola syntezy i analizy mowy,
które zapewne w przyszłości będą głównymi sposobami komunikacji człowieka i
komputera.
Niniejszy wykład poświęcony będzie syntezie mowy, czyli procesowi
przekształcania tekstu na zapis fali dźwiękowej, który umożliwia odtworzenie
oryginalnego tekstu i dodatkowo możliwie jak najbardziej przypomina ludzki
sposób odczytania tekstu. W wielu sytuacjach używanie syntezatora ułatwia
korzystanie z komputera (czytanie maili, dostęp telefoniczny, ...), a czasami
wręcz umożliwia (np. czytanie tekstu "z ekranu" przez niewidomych).
Wykład ma kilka celów:
1. zrozumienie mechanizmów używanych na różnych poziomach syntezy mowy
2. napisanie własnego syntezatora mowy (którego mowę da się zrozumieć)
3. zapoznanie się z obecnie używanymi systemami syntezy mowy oraz narzędziami używanymi w ich tworzeniu
4. zorientowanie się w wyzwaniach stojących przed syntezą mowy
**Program:**
1. Definicja problemu Text-to-speech
2. Podział tekstu na słowa i zdania
3. Przetwarzanie tekstu zgodne z potrzebami syntezatora (dezambiguacja homonimów, sposoby czytania skrótów i skrótowców, liczby i inne jednostki nieleksykalne).
4. Wyznaczanie prozodii na podstawie analizy tekstu (podział na frazy, wybór akcentu zdaniowego, ustalanie linii prozodycznej)
5. Podstawy fonetyki i fonologii (sposób działania narządów mowy, akustyczna charakterystyka mowy, akcent wyrazowy, wyznaczanie czasu trwania głosek)
6. Wymowa (sposób przekształcania ciągu liter na ciąg fonemów -- Grapheme-to-phoneme conversion)
7. Fizyczna realizacja prozodii
8. Filtrowanie sygnałów akustycznych
9. Korpusowa synteza mowy
10. Podstawy analizy mowy i możliwości skorzystania z analizy mowy przy syntezie mowy.