Tworzenie zasobów nagrań wymowy to chyba jedyny obok linków interwiki przejaw współpracy Wiktionaries różnych języków. W repozytorium mediów Commons stworzyliśmy (zgadnijcie, czyj to był pomysł :) centrum zamówień nagrań i zdefiniowaliśmy format nazwy pliku tak, że pojawiające się nagrania można automatycznie wykorzystywać w hasłach danego języka. System działa; Polacy nagrywają polskie słowa, Niemcy niemieckie, i korzystają z tego wszystkie wersje językowe słownika.
Dobra nowina: po wczorajszej akcji tsca.bota Wikisłownik wzbogacił się o kolejne półtora tysiąca nagrań. Łącznie można już odsłuchać wymowy ponad trzech i pół tysiąca słów. Nic, tylko siadać i słuchać! :) Wysłuchanie nie jest zresztą jedynym sposobem korzystania z tych zasobów; można słowo powtarzać za lektorem i ćwiczyć; można je analizować w świetle umieszczonego obok zapisu fonetycznego (ucząc się w ten sposób alfabetu IPA), a w niektórych przypadkach, jak przy angielskim słowie solder, można porównać wymowę brytyjską, kanadyjską, amerykańską i australijską! W naszym języku też zresztą mamy bogactwo dźwięków: w haśle trzydzieści posłuchać można standardowej ogólnopolskiej wymowy oraz wymowy krakowskiej (haha).
Ponieważ wszyscy kochają statystyki, tsca.bot składa raport z frontu udźwiękowienia polskiego Wikisłownika (numery to liczba udźwiękowionych haseł):
- język angielski: 2641
- język polski: 447
- język niemiecki: 206
- język holenderski: 114
- język włoski: 29
- język francuski: 29
- język duński: 17
- język szwedzki: 16
- język rumuński: 13
- język hiszpański: 11
...oraz kilka języków mających mniej, niż 10 nagrań. Angielski ma się dobrze, bo aż 42% haseł ma udostępnioną wymowę. Dalej jest gorzej - polski 8%; niemiecki 5%... Ale to dopiero początki! I Ty możesz pomóc! :) Chwyć za mikrofon, nagraj kilka... (naście... dziesiąt...) polskich słów i wrzuć wynik do kategorii wymowa polska na Commons. Instrukcję znajdziesz tutaj.
PS: Swoją drogą, ostatnio zadziwiła mnie jakość najnowszych generatorów mowy. Ta technologia jest już na etapie, w którym można myśleć o wykorzystaniu jej w słownikach...
3 komentarze:
Może nasze panie spróbują swoich sił przy mikrofonie? :-) W zasadzie nie ma na Commons nagrań po polsku z kobiecym głosem.
na jakiej licencji maja byc te nagrania??
na jakiej licencji maja byc te nagrania?
Na dowolnej wolnej :) GFDL, CreativeCommons-BY, Public Domain... Zobacz opis na Wikipedii.
Prześlij komentarz