Przejdź do treści

Milena polski syntezator mowy dla systemu Linux

Menu

UWAGA!

Od wersji 0.2 Milena umożliwia głośne czytanie napisów w filmach odtwarzanych przez mplayera. Bliższe informacje na stronie Aplikacje: milena_subplayer.

Od wersji 0.1.8 paczka zawiera serwer milena_ws, pozwalający na bezpośrednią współpracę przeglądarki Firefox z syntezatorem mowy. Opis instalacji koniecznych rozszerzeń dla Firefoksa znajduje się na stronie Mówiące przeglądarki.

Pakiety potrzebne do działania Mileny (ich nazwy mogą różnić się w poszczególnych dystrybucjach!):
  1. mbrola
  2. mbrola-voice-pl
  3. enca-devel
  4. antiword (do milenizera)
  5. odt2txt (do milenizera)
  6. libao-devel
  7. sox v>=14.1
  8. lame (do milena_book)
  9. amrwb (do milena_nokia)
  10. ImageMagick (do milena_nokia)

Zainstaluj: milena-0.2.1.1.tar.gz czyli wreszcie uczciwa wersja beta.

Co to właściwie jest

Milena to system TTS (czyli coś przetwarzającego tekst na mowę), zorientowany na przetwarzanie "surowych" tekstów (artykuły prasowe, e-booki itp) i pisany od początku z myślą o języku polskim. Nie jest to w ścisłym znaczeniu syntezator mowy - Milena jedynie tworzy dane, a sama synteza mowy to zadanie dla innego programu. W chwili obecnej Milena potrafi utworzyć dane dla syntezatora Mbrola, ale nic nie stoi na przeszkodzie aby zastosować inny silnik wymowy (np. eSpeak czy - po pewnych modyfikacjach - Ivona).

Mimo iż systemem na którym powstaje Milena jest Linux (sprawdzone działanie na PLD Th 32-bit [nieoficjalny spec], Ubuntu 8.10/9.04 32-bit i CentOS 5.2 64-bit), prawdopodobnie nie powinno być problemu z przystosowaniem Mileny do działania na innych systemach (w tym również Windows).

Milena tworzona jest z myślą przede wszystkim o użytkowniku - eksperymentatorze, stąd wszystkie pliki z których korzysta to zwykłe tekstowe pliki czytelne dla człowieka. Nie ma też (jak w eSpeaku) konieczności kompilacji, a pliki danych mogą znajdować się w różnych miejscach (np. główny plik translatora w katalogu instalacyjnym, a plik na którym eksperymentujemy w katalogu bieżącym). Kolejność przetwarzania reguł jest ściśle określona (Milena nie próbuje znaleźć "najlepszej pasującej" reguły, a w zależności od fazy przetwarzania stosuje pierwszą lub ostatnią pasującą). Do edycji tych plików nie jest również potrzebna znajomość jakiegokolwiek języka programowania.

Nie oznacza to, że Milena nie może być użyta po prostu jako syntezator mowy ogólnego przeznaczenia.

Podziękowania

Przede wszystkim Marcinowi Miłkowskiemu za jego Morfologika, bez którego powstanie Mileny byłoby niemożliwe.

<p role="ironia">Firmie Ivo Software, która tak długo zwleka z udostępnieniem Ivony Desktop, że zdążyłem przez ten czas napisać własny system TTS.</p>

Coś a la changelog

Różnice w stosunku do wersji 0.1.7

Różnice w stosunku do wersji 0.1.6

Wyłącznie poprawki techniczne. Usunięte błędy powodujące błędne akcentowanie mimo prawidłowo wprowadzonych reguł.

Różnice w stosunku do wersji 0.1.5

Różnice w stosunku do wersji 0.1.4

Różnice w stosunku do wersji 0.1.3

Różnice w stosunku do wersji 0.1.2

Różnice w stosunku do wersji 0.1.1

Różnice w stosunku do wersji 0.1

Wymagania

  1. gcc i gmake - do instalacji
  2. mbrola i polski głos do mbroli - do tworzenia mowy
  3. lame, sox, aplay czy cokolwiek - do owej mowy słuchania
  4. libenca - przydatna (choć niewymagana) do skompilowania milenizera
  5. libao - do skompilowania serwera milena_ws

Trochę więcej informacji