27 czerwca 2007

Brzmi chrząszcz w Szczebrzeszynie

Nauka i korzystanie z języka nie ogranicza się do czytania i pisania. Słowa trzeba jeszcze umieć wymówić i być w stanie je zrozumieć ze słuchu. Wikisłownik w coraz większym stopniu jest tu pomocny: opis wymowy w projekcie to nie tylko zapis słowa alfabetem fonetycznym, ale też nagrania tworzone przez osoby, dla których dany język jest ojczystym.

Tworzenie zasobów nagrań wymowy to chyba jedyny obok linków interwiki przejaw współpracy Wiktionaries różnych języków. W repozytorium mediów Commons stworzyliśmy (zgadnijcie, czyj to był pomysł :) centrum zamówień nagrań i zdefiniowaliśmy format nazwy pliku tak, że pojawiające się nagrania można automatycznie wykorzystywać w hasłach danego języka. System działa; Polacy nagrywają polskie słowa, Niemcy niemieckie, i korzystają z tego wszystkie wersje językowe słownika.

Dobra nowina: po wczorajszej akcji tsca.bota Wikisłownik wzbogacił się o kolejne półtora tysiąca nagrań. Łącznie można już odsłuchać wymowy ponad trzech i pół tysiąca słów. Nic, tylko siadać i słuchać! :) Wysłuchanie nie jest zresztą jedynym sposobem korzystania z tych zasobów; można słowo powtarzać za lektorem i ćwiczyć; można je analizować w świetle umieszczonego obok zapisu fonetycznego (ucząc się w ten sposób alfabetu IPA), a w niektórych przypadkach, jak przy angielskim słowie solder, można porównać wymowę brytyjską, kanadyjską, amerykańską i australijską! W naszym języku też zresztą mamy bogactwo dźwięków: w haśle trzydzieści posłuchać można standardowej ogólnopolskiej wymowy oraz wymowy krakowskiej (haha).

Ponieważ wszyscy kochają statystyki, tsca.bot składa raport z frontu udźwiękowienia polskiego Wikisłownika (numery to liczba udźwiękowionych haseł):


  1. język angielski: 2641
  2. język polski: 447
  3. język niemiecki: 206
  4. język holenderski: 114
  5. język włoski: 29
  6. język francuski: 29
  7. język duński: 17
  8. język szwedzki: 16
  9. język rumuński: 13
  10. język hiszpański: 11

...oraz kilka języków mających mniej, niż 10 nagrań. Angielski ma się dobrze, bo aż 42% haseł ma udostępnioną wymowę. Dalej jest gorzej - polski 8%; niemiecki 5%... Ale to dopiero początki! I Ty możesz pomóc! :) Chwyć za mikrofon, nagraj kilka... (naście... dziesiąt...) polskich słów i wrzuć wynik do kategorii wymowa polska na Commons. Instrukcję znajdziesz tutaj.

PS: Swoją drogą, ostatnio zadziwiła mnie jakość najnowszych generatorów mowy. Ta technologia jest już na etapie, w którym można myśleć o wykorzystaniu jej w słownikach...

3 komentarze:

Derbeth pisze...

Może nasze panie spróbują swoich sił przy mikrofonie? :-) W zasadzie nie ma na Commons nagrań po polsku z kobiecym głosem.

Anonimowy pisze...

na jakiej licencji maja byc te nagrania??

tsca pisze...

na jakiej licencji maja byc te nagrania?

Na dowolnej wolnej :) GFDL, CreativeCommons-BY, Public Domain... Zobacz opis na Wikipedii.