Przejdź do treści

Milena polski syntezator mowy dla systemu Linux

Menu

NOWOŚCI!

Od wersji 0.2.77 (wersja ABC 0.3.62) Milena może bezpośrednio korzystać z przetworzonych danych Morfologika. Sposób instalacji danych oraz krótki opis na stronie Milena i Morfologik.


Powróciłem do stworzenia używalnej wersji Milena dla Windows!


Dla użytkowników Ubuntu: działa repozytorium PPA, zawierające najpotrzebniejsze programy (milena, milena_abc, ivolektor, moduł speech-dispatchera). Aby dodać repozytoria Mileny do listy, należy wprowadzić polecenia:

sudo add-apt-repository ppa:ethanak/milena
sudo apt-get update

W repozytorium znajdują pakiety dla wersji 10.04 (przestarzałe), 12.04, 12.10, 13.10 i częściowo 14.04.


Uruchomiony został konwerter książek online. Bliższe informacje na stronie ebookconverter.eu.

Od wersji 0.3.7 Milena ABC dzięki opracowaniu biblioteki libivolektor w pełni współpracuje z syntezatorem Ivona (zarówno w wersji SAPI uruchomionej w środowisku Wine jak i w natywnej linuksowej ivonacl). Generowanie ortograficznych tekstów dla Ivony zostało również włączone do głównej biblioteki Mileny.

Pakiety potrzebne do działania Mileny (ich nazwy mogą różnić się w poszczególnych dystrybucjach!):
  1. mbrola
  2. mbrola-voice-pl
  3. enca-devel
  4. antiword (do milenizera)
  5. odt2txt (do milenizera)
  6. poppler-utils lub xpdf-utils (pdftotext, do milenizera)
  7. libao-devel
  8. sox v>=14.1
  9. lame (do milena_book)
  10. vorbis-tools (oggenc, do milena_book)
  11. faac (do milena_book)
  12. amrwb (do milena_nokia)
  13. ImageMagick (do milena_nokia)

Zainstaluj: milena-0.2.78.2.tar.gz czyli wreszcie wersja końcowa.

Co to właściwie jest

Milena to system TTS (czyli coś przetwarzającego tekst na mowę), zorientowany na przetwarzanie "surowych" tekstów (artykuły prasowe, e-booki itp) i pisany od początku z myślą o języku polskim. Nie jest to w ścisłym znaczeniu syntezator mowy - Milena jedynie tworzy dane (tzn. realizuje fazę NLP) syntezy), a sama synteza mowy (w znaczeniu syntezy dźwięku, czyli DSP) to zadanie dla innego programu. W chwili obecnej Milena potrafi utworzyć dane dla syntezatora Mbrola, ale nic nie stoi na przeszkodzie aby zastosować inny silnik wymowy (np. eSpeak czy - po pewnych modyfikacjach - Ivona).

Mimo iż systemem na którym powstaje Milena jest Linux (sprawdzone działanie na PLD Th 32-bit [nieoficjalny spec], Ubuntu 8.10/9.04 32-bit i CentOS 5.2 64-bit), prawdopodobnie nie powinno być problemu z przystosowaniem Mileny do działania na innych systemach (w tym również Windows).

Milena tworzona jest z myślą przede wszystkim o użytkowniku - eksperymentatorze, stąd wszystkie pliki z których korzysta to zwykłe tekstowe pliki czytelne dla człowieka. Nie ma też (jak w eSpeaku) konieczności kompilacji, a pliki danych mogą znajdować się w różnych miejscach (np. główny plik translatora w katalogu instalacyjnym, a plik na którym eksperymentujemy w katalogu bieżącym). Kolejność przetwarzania reguł jest ściśle określona (Milena nie próbuje znaleźć "najlepszej pasującej" reguły, a w zależności od fazy przetwarzania stosuje pierwszą lub ostatnią pasującą). Do edycji tych plików nie jest również potrzebna znajomość jakiegokolwiek języka programowania.

Nie oznacza to, że Milena nie może być użyta po prostu jako syntezator mowy ogólnego przeznaczenia.

Podziękowania

Przede wszystkim Marcinowi Miłkowskiemu za jego Morfologika, bez którego powstanie Mileny byłoby niemożliwe.

<p role="ironia">Firmie Ivo Software, która tak długo zwleka z udostępnieniem Ivony Desktop, że zdążyłem przez ten czas napisać własny system TTS.</p>

Coś a la changelog

Różnice w stosunku do wersji 0.1.7

Różnice w stosunku do wersji 0.1.6

Wyłącznie poprawki techniczne. Usunięte błędy powodujące błędne akcentowanie mimo prawidłowo wprowadzonych reguł.

Różnice w stosunku do wersji 0.1.5

Różnice w stosunku do wersji 0.1.4

Różnice w stosunku do wersji 0.1.3

Różnice w stosunku do wersji 0.1.2

Różnice w stosunku do wersji 0.1.1

Różnice w stosunku do wersji 0.1

Wymagania

  1. gcc i gmake - do instalacji
  2. mbrola i polski głos do mbroli - do tworzenia mowy
  3. lame, sox, aplay czy cokolwiek - do owej mowy słuchania
  4. libenca - przydatna (choć niewymagana) do skompilowania milenizera
  5. libao - do skompilowania serwera milena_ws

Trochę więcej informacji