28 czerwca 2007

Iście nordyckiej sagi ciąg dalszy

Czas na krótkie podsumowanie wertowania indeksu języka islandzkiego. Tak, wiem, wszyscy mają dość mojego trucia. Właśnie przejrzałem hasła od literki t w górę, więc jest dość obiektywnie.
Nie jestem zadowolony z tego, co ujrzałem. Właściwie jestem bardzo niezadowolony. Dobrych, kompletnych haseł jest jak na lekarstwo. Większość to stuby i to nierzadko z błędami. Wiele z tych błędów poprawiłem, ale nie wiem, ile mi umknęło.
Oprócz tego:
  • 12 usuniętych haseł
  • kilka haseł, które powinny być usunięte, ale je zignorowałem
  • 237 podstawowych słów domagających się natychmiastowego rozszerzenia i dopracowania

Zebrałem także listę haseł, które wymagają dodatkowych informacji. Zazwyczaj weryfikacji odmiany, znaczenia lub częstotliwości występowania.

  • zapis słowa Stóra Bretland: z kreską (Stóra-Bretland) czy bez? W Google występują oba warianty.
  • odmiana słowa ananas: niewiadoma
  • odmiana słowa balsamik edik: ...a konkretnie jego pierwszej części
  • występowanie słowa belgiari: w Google ma trzy wyniki. Nie wiem, czy w ogóle jest używane. A jeżeli nie, to jak określa się mieszkańca Belgii?
  • odmiana słowa esdragon: niewiadoma. Czy fáfnisgras jest synonimem? W Google ma o wiele więcej trafień.
  • forma słowa frið: odnoszę silne wrażenie, że to biernik od friður, błędnie uznany za mianownik. Nie jestem tego pewien.
  • kurka (grzyb) jest nazywana po islandzku kantarell czy rifsveppur? Może to synonimy? Kantarell ma więcej wyników w Google (powalająca liczba dwudziestu dziewięciu). Może jednak jest jeszcze inaczej nazywana?
  • kokosmjöl jako wiórki kokosowe: siedem wyników w Google.
  • spotkałem się z trzema tłumaczeniami słowa maur: mrówka, termit i roztocz. W Wikisłowniku mamy tylko pierwsze znaczenie. Słowniki nie są zgodne co do pozostałych dwóch.
  • odmiana słowa mey: brak
  • pressujárn jako żelazko: poważne wątpliwości co do tego słowa (trzy wyniki w Google, trzynaście w ritmálsskrá, zero w słownikach
  • jaka jest różnica pomiędzy znaczeniem słów raffræði a rafmagnsverkfræði? W Wikisłowniku radośnie określiłem oba jako elektrotechnikę.
  • odmiana rzeczownika salami: brak

Te wątpliwości postaram się wyjaśnić. Skoro mamy tak mało haseł po islandzku, to wypadałoby, by były chociaż wiarygodne.
Znowu namieszałem, innymi słowy.

Pierwsze urodziny słownika jidysz


Dokładnie rok temu 27 czerwca 2006 roku, o godz. 11:17:46, pojawiło się na stronach Wikisłownika pierwsze hasło w języku jidysz. Było nim słowo ייִד, słowo dla owego języka bazowe. W najśmielszych planach nie przypuszczałbym, iż rok później słownik tego języka będzie liczył ponad 7000 haseł, stanowiąc tym samym największy nowoczesny1 słownik żydowsko-polski jaki ukazał się w tym kraju od czasów II wojny światowej.

W dodatku jest to słownik nie-zwykły. Jest to bowiem słownik online. Słownik, który oczywiście, można przeszukiwać tradycyjnie, wertując strona po stronie, ale też, czego nie dają nam wydania książkowe, używając w tym celu wyszukiwarki. Umożliwia nam ona przeszukiwanie zawartości, bądź to wpisując hasła w ich orginalnej formie, używając w tym celu alfabetu hebrajskiego, bądź, co istotne dla osób go nie znających, wpisując hasła łacinką. Przy czym, możemy je wpisywać zarówno fonetycznie, jak też, dla osób bardziej obeznanych z tematem, stosując romanizację YIVO. Bez względu jednak, którą z opcji wybierzemy, informację zwrotną dostaniemy w przeciągu kilku sekund.
Słownik ten, ma jeszcze jedną właściwość, której z oczywistych względów nie mógłby mieć wydany drukiem. Mianowicie jeśli nie znajdziemy interesującego nas hasła, zawsze możemy, na specjalnie w tym celu przygotowanej stronie, poprosić autorów aby je opracowali, będąc jednocześnie pewnym, iż zostanie ono dodane w przeciagu kilku dni.

Wreszcie rzecz chyba najważniejsza. Jest to słownik, z którego zasobów możemy korzystać zupełnie bezpłatnie. Jest to bowiem "wolny słownik", dostępny na Licencji GNU Wolnej Dokumentacji (GNU FDL). Moja radość z tego faktu jest tym większa, iż dzięki pasji i bezinteresownej pomocy ludzi tworzących "wolne oprogramowanie" czy też z kręgów "open source" udało się mi zrealizować to, czego wcześniej nie byłem w stanie sfinalizować w ramach reguł gry "wolnorynkowej" – no, bo kto to kupi?! – Dlatego też korzystając z okazji, chciałbym publicznie podziękować wszystkim tym, dzięki którym udało mi się zrealizować dotychczasową część projektu "!ייִדיש לעבט". Tak, jidysz żyje! ...i będzie żyć dzięki wam!

Tak więc, będąc nerdem, który zaniedbuje wszystko dookoła, całymi nocami przesiadując przed komputerem – łączę, tymsamym dwie moje pasje, po to tylko, aby setki, a w przyszłości może i tysiące, jidyszystów mogły mieć łatwy dostęp do tego, czego mi w swoim czasie brakowało najbardziej. Więc dziś Panowie i Panie w okrągłą rocznicę tego ważnego, dla mnie, wydarzenia wznoszę kielichy i gromkim głosem światu donoszę: Niech żyje wiki, wikisłowniki, niech żyje jidysz, niech żyją geeki!

1 Zgodny z normami ortograficznymi Żydowskiego Instytutu Naukowego (YIVO).

27 czerwca 2007

Brzmi chrząszcz w Szczebrzeszynie

Nauka i korzystanie z języka nie ogranicza się do czytania i pisania. Słowa trzeba jeszcze umieć wymówić i być w stanie je zrozumieć ze słuchu. Wikisłownik w coraz większym stopniu jest tu pomocny: opis wymowy w projekcie to nie tylko zapis słowa alfabetem fonetycznym, ale też nagrania tworzone przez osoby, dla których dany język jest ojczystym.

Tworzenie zasobów nagrań wymowy to chyba jedyny obok linków interwiki przejaw współpracy Wiktionaries różnych języków. W repozytorium mediów Commons stworzyliśmy (zgadnijcie, czyj to był pomysł :) centrum zamówień nagrań i zdefiniowaliśmy format nazwy pliku tak, że pojawiające się nagrania można automatycznie wykorzystywać w hasłach danego języka. System działa; Polacy nagrywają polskie słowa, Niemcy niemieckie, i korzystają z tego wszystkie wersje językowe słownika.

Dobra nowina: po wczorajszej akcji tsca.bota Wikisłownik wzbogacił się o kolejne półtora tysiąca nagrań. Łącznie można już odsłuchać wymowy ponad trzech i pół tysiąca słów. Nic, tylko siadać i słuchać! :) Wysłuchanie nie jest zresztą jedynym sposobem korzystania z tych zasobów; można słowo powtarzać za lektorem i ćwiczyć; można je analizować w świetle umieszczonego obok zapisu fonetycznego (ucząc się w ten sposób alfabetu IPA), a w niektórych przypadkach, jak przy angielskim słowie solder, można porównać wymowę brytyjską, kanadyjską, amerykańską i australijską! W naszym języku też zresztą mamy bogactwo dźwięków: w haśle trzydzieści posłuchać można standardowej ogólnopolskiej wymowy oraz wymowy krakowskiej (haha).

Ponieważ wszyscy kochają statystyki, tsca.bot składa raport z frontu udźwiękowienia polskiego Wikisłownika (numery to liczba udźwiękowionych haseł):


  1. język angielski: 2641
  2. język polski: 447
  3. język niemiecki: 206
  4. język holenderski: 114
  5. język włoski: 29
  6. język francuski: 29
  7. język duński: 17
  8. język szwedzki: 16
  9. język rumuński: 13
  10. język hiszpański: 11

...oraz kilka języków mających mniej, niż 10 nagrań. Angielski ma się dobrze, bo aż 42% haseł ma udostępnioną wymowę. Dalej jest gorzej - polski 8%; niemiecki 5%... Ale to dopiero początki! I Ty możesz pomóc! :) Chwyć za mikrofon, nagraj kilka... (naście... dziesiąt...) polskich słów i wrzuć wynik do kategorii wymowa polska na Commons. Instrukcję znajdziesz tutaj.

PS: Swoją drogą, ostatnio zadziwiła mnie jakość najnowszych generatorów mowy. Ta technologia jest już na etapie, w którym można myśleć o wykorzystaniu jej w słownikach...

08 czerwca 2007

Nieśmiertelny stub

"Stub", pojęcie zapożyczone z Wikipedii, w Wikisłowniku też ma się nieźle. Oznacza u nas hasło, w którym podane jest tylko znaczenie wyrazu, podczas gdy jego pozostałe właściwości - odmiana, przykłady, synonimy, itd - nie są omawiane. Stuby produkuje się z założeniem, że "ktoś to kiedyś dopisze".

Nierówny poziom haseł Wikisłownika wynika z dwóch różnych filozofii jego tworzenia: niektórzy uważają, że lepiej wpisać mnóstwo minihaseł zawierających tylko krótką jednowyrazową definicję, inni, że raczej warto poświęcić czas na tworzenie bardziej rozbudowanych omówień. Pisanie krótkich haseł jest proste, szybko widać efekty: wzrasta pozycja danego języka w statystykach. Warto jednak spojrzeć na to od strony użytkownika: czy wystarcza mu informacja, że słowo dog oznacza psa, czy może chciałby wiedzieć coś więcej (Czy można tak nazwać policjanta? Jak nazywa się samica psa? A przymiotnik? Czy wobec tego można powiedzieć po angielsku "pieskie życie"? A przy okazji, jak po angielsku mówi się o tym wszystkim, co robi pies: szczeka, warczy, gryzie, łasi się i merda ogonem?). W szablonie hasła jest miejsce na te wszystkie informacje - ale to miejsce często jest, niestety, puste.

Zastanówmy się więc nad zapotrzebowaniem na stuby. We Francji przeprowadzono badania nad efektywnością używania słowników w nauce języków obcych. Zapytano studentów, czego w słownikach szukają i z jakich informacji korzystają. Jak się okazuje:


  • 87% znaczenie
  • 70% przykłady
  • 68% synonimy
  • 53% składnia i odmiana
  • 25% wymowa
  • 24% grafika/zdjęcie
  • 19% obszar stosowania
  • 5% etymologia

Z tych wyników można wyciągnąć wniosek, że samo wyjaśnienie znaczenia słowa to (za) mało. Aż 70% użytkowników oczekuje przykładów użycia słowa i spisu jego synonimów, ponad połowa chce składni i odmiany. Wiele osób szuka danego wyrazu w słowniku nie dla jego znaczenia - które już zna - ale w poszukiwaniu tych dodatkowych informacji. Oznacza to, że dla bardzo dużej części użytkowników Wikisłownik - oferując tylko stub - po prostu nie spełnia swojego zadania.

Trochę bardziej szczegółowe badania przeprowadzano przygotowując elektroniczne wydanie The New Oxford English Dictionary. Poproszono użytkowników, by zastanowili się nad swoimi potrzebami i zasugerowali, co powinno się w tym wydaniu znaleźć:


  • 41% etymologia
  • 39% przykłady
  • 39% odmiana
  • 38% wymowa
  • 37% aktualność (np. "przestarzałe", "archaiczne")
  • 37% związki frazeologiczne
  • 34% temat (np. "zool.", "fiz.")
  • 34% cechy gramatyczne (np. "czasownik przechodni")
  • 30% obszar stosowania (np. regionalizm warszawski, angielski brytyjski)
  • 32% styl (np. "pot.", "wulg.")
  • 28% znaczenie
  • 25% nagłówek (sprawdzanie pisowni)

Nie powinna tu dziwić zamiana miejscami "znaczeń" i "etymologii" - badania dotyczą słownika języka ojczystego, więc większość użytkowników definicje słów zna.

W obu zestawieniach zwraca uwagę wysokie zapotrzebowanie na przykłady. W Wikisłowniku kładziemy duży nacisk na ich dodawanie (ekhm, przynajmniej w niektórych językach) i widać, że ma to sens, warto o tym pamiętać, organizować i powtarzać akcje typu "tydzień dodawania brakujących przykładów". Nie tylko przydają się one użytkownikom, ale i tworzą powiązania między hasłami, uczą kolokacji i zachęcają do zapoznawania się z kolejnymi słowami. Dodawajcie przykłady! Ciekawe też, że aż 31% użytkowników chciałoby, aby podawać źródła przykładów (z "wyborczej"/z "Quo Vadis"/z dyskusji internetowej) - my w zasadzie podajemy te źródła, ale mam wrażenie, że bez szczególnej pieczołowitości.

Cytowane badania świadczą też pośrednio o dobrej organizacji polskiego Wikisłownika. Wypracowany przez nas szablon hasła wychodzi naprzeciw zapotrzebowaniu - zawiera niemal wszystko to, czego ludzie w słownikach szukają. Postarajmy się, aby nie tylko szablon to zawierał, ale i same hasła. :)

PS: Dla formalności: badania cytuję za Bergenholtz H. & Tarp S. (1994), Manual i fagleksikografi, Herning: Systime (ISBN 8777834534)

07 czerwca 2007

NetSprint zainteresował się Wikinews; kolej na Wikisłownik?

Wikinews odniosło ostatnio niemały sukces - wyszukiwarka NetSprint dodała nasz siostrzany projekt jako źródło informacji. Kto wie, może artykuł z Wikinews pojawi się kiedyś na stronie głównej tamtejszego przeglądu wiadomości?

Postanowiłem skorzystać z okazji i zasugerowałem przedstawicielowi NetSprinta przyjrzenie się również Wikisłownikowi. Wyszukiwarka ma bowiem usługę słownika a oprócz tego potrzebuje list synonimów, które obecnie bierze z Wikipedii (a konkretnie ze stron ujednoznaczniających), co nie zawsze jest łatwe w realizacji i dokładne. W odpowiedzi dostałem, że co prawda niczego nie mogą obiecać, ale zastanowią się. Całość dyskusji na Wikiliście.

Ja trzymam kciuki i liczę, że Wikisłownik stanie się w końcu mainstreamowym serwisem.

05 czerwca 2007

Histeryczne uśmiechy

Godzina 2:21.
Łódź.
Zając robi bardzo głupią rzecz.
Nie śpi.
Aua.

Jest to dość uzasadnione, biorąc pod uwagę to, iż poprzedniej nocy spał dwie godziny, a dzisiaj po przyjściu do szkoły postanowił odespać tę noc. Wszystko byłoby (w miarę) w porządku, gdyby nie to, że obudził się o 22:00.
Nu. I teraz siedzi.

Hmm... tja... ach. Ten egzamin ustny. A więc, egzamin ustny był iście rozkoszny. Zając przyszedł do szkoły na przewidzianą dla niego godzinę. Z katarem do pasa i oczami jak królik (nie zając). Było to spowodowane nie nadużywaniem alkoholu (tudzież innych używek) w wieku młodzieńczym, jak zgadywaliby moi drodzy czytelnicy, lecz tym dobrodziejstwem cywilizacji, jakim jest alergia na pyłki. To ta sama kategoria co komputery, samochody, zraszacze do trwaników, zapinki do włosów i choroby weneryczne.
Tak więc zając przyszedł, po czym - obrzucany nieco dziwnymi spojrzeniami, być może z racji jego ubioru, być może z racji wrodzonej nieudolności manualno-intelektualnej, która nie pozwala mu na ułożenie okularów pod odpowiednim kątem, kto wie - podjął karkołomną próbę wymyślenia jakiegoś usprawiedliwienia swego stanu, lecz jedyne tłumaczenie na "chusteczkę do nosa", jakie mu przychodziło do głowy, to "das Haus", więc dał sobie spokój.
Generalnie mam dziwną właściwość, że w takich momentach właściwym tłumaczeniem dla każdego słowa wydaje się być "das Haus".

Tak... na czym to ja skończyłem?
Ach.
A więc w końcu poproszono zająca do tej jask... tego pomieszczenia. Ze względu na półmrok panujący w korytarzu, blask wydobywający się zza drzwi przypominał światło na końcu tunelu.
Tja.
Ach, 2:34.

Zając wszedł. Jego germanistka oraz germanistka drugiej grupy były bardzo miłe. To było na tyle szokujące, że odbierało mowę. Zapewne to taki chwyt.
Frau W. łaskawie zaprosiła zająca, by wylosował sobie kartkę. Zając, starając się zachować spokój, co przychodziło mu z trudem, drżącą ręką sięgnął po kartkę, uważnie obserwując germanistkę, z twarzy której nie schodził histerycznie przyjazny uśmiech. Spojrzał (tym razem na kartkę). Statystyka. Aua.
Statystyka przedstawiała dane na temat przyczyn przeprowadzek Niemców do wielkich miast. Zając musiał pokrótce ją przedstawić oraz odnieść te dane do sytuacji w Polsce oraz swoich doświadczeń. Przy okazji się wydało, że zając jest profanem, który ma w nosie Wielką Sztukę i w domu siedzi, miast rozkoszować się urokiem miast (i ich Życia Kulturalnego).
Najbardziej interesująca była trzecia część, w której to części zając jest studentem i miał zamiar zamieszkać w jedym domu z germanistką drugiej grupy, która także była studentką (trochę się tylko na roku zasiedziała). Zając oczywiście zaczął mącić, że najlepiej to w centrum miasta, bo stamtąd najłatwiej wszędzie dotrzeć, oraz bla bla bla, a także srututu. Germanistka określiła ten pomysł jako sratatata. No, może nie dosłownie, ale widać było po jej minie.
Trochę się zakałapućkało, kiedy zając zaczął wyjaśniać, że okolica powinna być spokojna, "co byśmy się mogli uczyć". Tyle że centrum miasta raczej nie przypomina czegoś, co można by nazwać "spokojną okolicą". Zając więc przyjał na twarz (czy co on tam ma) Przepraszający-Acz-Nie-Nachalny-Uśmiech-nr-9 i zaczął tłumaczyć, że jemu to chodziło o cichych sąsiadów.

Ech, jestem zmęczony.
I nic nie pamiętam.

Tja.

Egzamin, ogólnie rzecz biorąc, dość satysfakcjonujące przyniósł wyniki. 90,5/100 z pisemnego (jestem na tyle zarozumiały, że poczułem się tym wynikiem nieco zawiedziony) i - wbrew oczekiwaniom - 24/25 z ustnego.
Odjęli mi jeden punkt za "bierność w rozmowie", czyli za powtarzanie "ja... ja... ja..." i robienie przy tym głupiej miny =="

Ale to oczywiście nie koniec. W środę otrzymam spowrotem moje orgazmicznie kompletne portfolio, za które dostanę 3/30. Ale co tam. Ważne, że Fishah dostał 7.
Ja nie opowiadałem o Fishah?
Hmm...
Nie lubię opowiadać strasznych historii na noc.


Hmm...
Tja.
O renesansie zainteresowania językiem islandzkim trąbię wszem i wobec, więc już nie będę truł.
Ahm.
Hm.
No.
To by chyba było na tyle.



Ha! Ale już nie zszedłem z tematu Wikisłownika!
(ja po prostu na niego nie wszedłem)