16 grudnia 2008

Słowa zdecentralizowane

Wyobraźcie sobie rzecz, która jest znana w całej Polsce, ale w każdym regionie nazywana. I nie ma jednej, ogólnopolskiej nazwy. Pewnym zaskoczeniem było dla mnie odkrycie takich tworów przy okazji uzupełniania regionalizmów na Wikisłowniku.
A chyba najbardziej zdecentralizowany leksykalnie przedmiot wygląda tak



W Łodzi jest to angielka, w Krakowie - weka, w Poznaniu - kawiorek lub kawiorka, w Katowicach - francuz, w Białymstoku - baton, a w Warszawie - bułka paryska lub wrocławska. A jak to nazwać w języku zrozumiałym dla wszystkich Polaków? Długa bułka pszenna? A wydawałoby się, że polski to taki jednolity, scentralizowany język...

06 grudnia 2008

Jeszcze fałszywi przyjaciele

Znowu czytając dzisiaj wiadomości z Łużyc wpadłem na zabawnego fałszywego przyjaciela. Weźmy tekst "wy sćo jězu skazali?". Nie jest to wcale fragment piosenki wygolonego na łyso zespołu ani treść wymiany zdań między kibicami rywalizujących drużyn (zdanie zresztą spreparowałem na poczekaniu, nie szukajcie w Google'u). Weźmy pozornie podobny przypadek: jeśli głośno wymówi się "wy sćo tam byli?", można wpaść, że chodzi o odpowiednik "wyście tam byli?".

Tak naprawdę "wy sćo jězu skazali?" znaczy "czy zamówiliście już jedzenie?", a jak coś jest "skazane" to jest zamówione ;-) W tekście z wiadomości, który czytałem, dziwiłem się z kolei, czemu "gmejny kažu swójim staršym wobydlarjam" (mieszkańcom) coś na święta zrobić. Okazało się, że gminy nie każą, tylko zapraszają, bo kazaś to zapraszać.

02 grudnia 2008

Nowe strony kategorii języków

W ostatnim czasie wprowadziliśmy małą reformę stron kategorii języków. Chodziło głównie o to, by ustandaryzować wygląd takich stron, pozbyć się złych rzeczy (jak wielki i nieprzydatny formularz „dodaj hasło”), a dobre udostępnić dla wszystkich języków. Co wchodzi w skład tych dobrych rzeczy?

  • dla większej przejrzystości i oszczędności miejsca treść upakowano w tabelkę

  • automatycznie aktualizowane i mówiące poprawną polszczyzną liczniki haseł

  • po prawej stronie wyróżnione linki do opisu języka na Wikipedii, podręcznika na Wikibooks, nagrań wymowy do Wikimedia Commons

  • link „losuj hasło” dla osób na wypadek, by ktoś miał ochotę po prostu „poskakać” po hasłach ;-)

  • kanał RSS z nowymi hasłami — coś zarówno dla osób uczących się języka (choć nie przy każdym języku jest gwarancja, że coś na kanale będzie często się pojawiać), jak i autorów (powiadamianie, gdy ktoś dopisze hasło do naszego ulubionego języka); RSS taki zresztą stworzyć może każdy dla dowolnej kategorii nie tylko na Wikisłowniku (szczegóły)


Rezultaty można zobaczyć na przykładzie języka angielskiego.

11 listopada 2008

Jak klasyka literatury polskiej szkodzi Wikisłownikowi

Na Wikisłowniku pojawił się ostatnio trend, by jako przykłady do haseł polskich wstawiać cytaty z materiałów Wikiźródeł – najczęściej starych książek, do których prawa autorskie wygasły, w związku z tym nie ma wątpliwości prawnych, czy można ich użyć. Na pierwszy rzut oka ma to same zalety – nie wymyślamy własnych, niestworzonych historii, tylko czerpiemy z dzieł wielkich autorów, dajemy przykład pięknej i na pewno poprawnej polszczyzny, oszczędzamy czas i wysiłek na samodzielne tworzenie przykładów. A do tego podbijamy ranking Google’a siostrzanych Wikiźródeł i być może skłaniamy kogoś do przeczytania trochę więcej z cytowanego dzieła. Brzmi pięknie, ale niestety naprawdę tak różowo nie jest.

Pomysł z użyciem dla języka polskiego gotowych przykładów, czy to z książek, czy to z korpusu językowego, nie jest nowy. Wypowiadałem się zawsze o nim z dużą dozą sceptycyzmu, którzy zwolennicy takich rozwiązań kontrowali mówiąc m.in., że nie mamy kompetencji językowych do pisania przykładów użycia słów, bo przykłady takie będą zawsze skażone subiektywizmem – będziemy więc pisali, jak my widzimy użycie słowa, a nie to, jak owe użycie wygląda w prawdziwym języku.

Dylematowi temu miałem okazję się przyjrzeć od drugiej strony – jako użytkownik. Zaglądam do dwóch internetowych słowników – języka dolnołużyckiego stworzonego przez Instytut Łużycki oraz górnołużyckiego Wikisłownika. Oba mają tę zaletę, że przy słowach podają przykłady, ale jednocześnie stoją na przeciwległych biegunach w metodologii ich doboru. W pierwszym przykłady są ewidentnie wymyślane; często nie są to nawet zdania, ale krótkie zwroty albo kolokacje. W drugim stosowane są wyłącznie teksty z korpusu językowego.

Korzystanie z dzieła Instytutu Łużyckiego to prawdziwa przyjemność. Ciężko jest w krótkiej definicji oddać znaczenie słowa, ale w zorientowaniu się, jaki zakres znaczeniowy ma dany wyraz, bardzo pomagają świetne przykłady – jest ich zazwyczaj tyle, ile trzeba, nie są pisane „na jedno kopyto”, podchodzą często do słowa z kilku stron. Z górnołużyckiego słownika korzystam bardzo mało, a prawie w ogóle nie czytam tamtejszych przykładów. Czytelnik jest tam atakowany wielką zbitą górą tekstu, najczęściej z artykułów publicystycznych z przestrzeni ostatnich 150 lat, gdzie autorzy żonglują słowami, wyszukanymi metaforami i odnoszą się do poważnych problemów społeczeństwa górnołużyckiego. Ciągnące się niemiłosiernie zdanie (lub czasem kilka zdań) trzeba czytać kilka razy, żeby rozgryźć figury retoryczne, złapać mniej więcej sens kompletnie wyrwanego z kontekstu fragmentu i dopiero wtedy móc zanalizować, jakie miejsce ma w tym zdaniu analizowane słowo. To prawdziwe piekło.

Całe szczęście, że na Wikisłowniku nie korzystamy w tak dużym stopniu z cytatów z dawnej prasy (za to preferujemy literaturę przygodową i „narodową”, co rodzi inne problemy), ale mimo wszystko uważam, że dla użytkownika o wiele lepszy jest pierwszy sposób pisania przykładów – z własnej głowy. Z głowy – to nie znaczy szybko i byle jak; tworzenie własnych przykładów daje właśnie swobodę skonstruowania zdania tak, by stanowiło samodzielną całość, a nie urywek długiego tekstu; by kontekst użycia słowa podpowiadał jego znaczenie na wypadek, gdyby definicja słowa była nieprecyzyjna lub trudna do zrozumienia dla obcokrajowca. Umożliwia pokazanie od razu w przykładach składni i kolokacji. Daje swobodę napisania tylko tyle, ile trzeba, zamiast okrajać zapożyczony cytat, martwiąc się, czy zdanie wciąż zachowuje sens. „Ale co my się tyle przejmujemy tymi głupimi obcokrajowcami” – mógłby ktoś rzucić. Sęk w tym, że funkcja przykładu jako elementu hasła, który jest w stanie wyklarować sens znaczenia, do którego jest przyporządkowany, jest ważna nie tylko dla obcokrajowca. Sam spotykam się nie tak znowu rzadko z sytuacją, że mam polskie hasło i wiem, jakie to słowo ma tłumaczenia na język obcy – nie jestem jednak w stanie przypisać tych tłumaczeń do numerów, bo nie rozumiem, co autor hasła miał na myśli, pisząc definicje znaczeń. Ja też jako codzienny użytkownik języka polskiego i autor haseł wcale nie mam ochoty głowić się, co Prus, Sienkiewicz czy Mickiewicz w danym miejscu mieli na myśli.

Zarzut o skazie subiektywizmu zawartej w samodzielnym pisaniu przykładów uważam za chybiony – bo nawet jeśli bierzemy jeden tekst z korpusu albo literatury, to dokonujemy tym samym selekcji, a więc subiektywizm wymyślania zastępujemy subiektywizmem wybrania jednego cytatu z ogółu i odrzucenia reszty. Co więcej, masowo wstawiając teraz teksty sprzed stu albo stu pięćdziesięciu lat, robimy słownik polszczyzny z innego wieku. Nie tylko ryzykujemy, że pewnych starych konstrukcji czytelnik nie będzie znał i zmusi to go do skakania po słowniku (zapewne nie naszym, bo w takich starych słowach mamy duże braki), ale ryzykujemy coś więcej: że oderwiemy słownik od aktualnej rzeczywistości. Skoro profesjonaliści piszą do słownika teksty „z głowy”, dlaczego my nie mielibyśmy tak robić? Pomijając już słownik dolnołużycki – biorę do ręki mój jednojęzyczny Oxford Advanced Learner’s Dictionary of Current English. Nie widzę tam śladu nawiązań do literatury pięknej; przykłady są takie, by pomagały w zrozumieniu znaczenie słowa, a jednocześnie zajmowały jak najmniej miejsca. Spytam się więc odwrotnie: czy ktoś widział profesjonalistów używających na taką skalę jak my cytatów z literatury? Czy nasz pomysł nie jest wręcz wybrykiem, jednostkowym eksperymentem na żywym ciele?

Dodając do hasła tylko cytat z literatury powodujemy, że hasło niby przykład ma (czyli automatyczne statystyki nie pokażą, że w haśle brakuje przykładu), ale nie jest to prawdziwy przykład. Wstawianie do haseł o rzeczach najprostszych (tzn. słowach podstawowych dla języka; które zna dziecko kończące zerówkę, które podaje się w pierwszych rozdziałach podręcznika do nauki języka obcego) jest strzelaniem z armaty do muchy. Jeśli obcokrajowiec zainteresuje się takim hasłem, to będzie to oznaczało, że zna polski na słabym poziomie i uczy się podstaw. My zaś rzucamy go na głęboką wodę, serwujemy przykład z literatury pięknej. Czy naprawdę żeby zrozumieć słowo „powolny” trzeba siłować się z Bolesławem Prusem, zerkać na znaczenie słów „rozlec się”, „turkot”, „bryczka”, „bita droga”, „stęp”? Czy pierwszy przykład daje jakąkolwiek wskazówkę, co mogłoby oznaczać słowo „powolny”? (Podpowiedź: jeśli w miejsce opisywanego słowa wstawimy np. „szybko” albo „głośno” i zdanie zachowa sens, to znaczy, że przykład nie daje takich wskazówek.) Jeszcze pół biedy, gdyby te cytaty były z prasy – ale one są z wierszy i powieści, gdzie pisanie prosto i zrozumiale jest wręcz wykroczeniem, gdzie dekoruje się każde zdanie wyszukanymi epitetami, gdzie w dobrym guście jest sztuczna archaizacja i ogólne udziwnianie języka. Żywy język to nie język powieści; jego nieodłączną częścią są wypowiedzi przy śniadaniu w domu, w sklepie na rogu, na spotkaniu ze znajomymi. Owszem, zapewne ktoś kiedyś w jakimś dziele użył słowa w takim „podwórkowym” znaczeniu, o jakie nam chodzi, ale w przypadku codziennych dialogów o wiele szybciej (i lepiej) jest po prostu wymyślić zdanie z głowy niż szukać.

Nie żebym był całkowicie przeciwko cytowaniu w przykładach. Uważam jednak, że każde narzędzie należy dostosować do okoliczności. Literatura piękna to fikcja, sztuczny świat (a w przypadku tekstów z Wikiźródeł – dodatkowo świat z innej epoki), dlatego nie należy jej używać do opisu języka życia codziennego. Pojęcia abstrakcyjne, wyszukane albo starsze słownictwo – tak, to miejsce, gdzie można, a czasem trzeba podeprzeć się literaturą. Ale nie udawajmy, że żyjemy w „Nad Niemnem”. Jeśli ktoś bardzo chce dodać cytat jako przykład do słowa z „normalnego życia” – dobrze, ale niech nie będzie to cytat jedyny dla danego znaczenia, lecz przykład dodatkowy, uzupełniający przykład napisany specjalnie dla tego hasła. Byłbym też za zwiększeniem udziału prasy w cytatach kosztem literatury pięknej: bo prasa używa żywszego języka, bardziej ukierunkowanego na komunikatywność, zamiast bawić się w wywoływanie takich czy innych uczuć u czytelnika.

Do tej pory cały czas miałem na myśli przede wszystkim język polski. W przypadku języków obcych sytuacja jest nieco inna, bo nie mamy stuprocentowej pewności, że pisząc przykład „z głowy”, piszemy go poprawnie – toteż bezpieczniej jest w większym stopniu opierać się na cytatach. Osobiście jednak i w tym przypadku podtrzymuję zdanie, że prasa (ewentualnie Wikipedia, jako źródło bądź co bądź popularnonaukowe, a nie śmiertelnie poważny traktat naukowy) jest lepszym od literatury pięknej źródłem przykładów.

10 października 2008

Tu nie będzie przeklinania

Jebany kał! Najebać to porno…

Nie, nie, nie odbiło mi zupełnie, proszę nie zamykać kart przeglądarek! Krótka wypowiedź, którą wyżej napisałem, nie jest wcale oburzająca. Jest całkiem zwyczajna, w pewnym języku takimi słowy mogłaby zwrócić się kochająca żona do męża przy rodzinnym obiedzie, tekst taki mógłby na pewno znaleźć się w artykule w gazecie, poważnym opracowaniu naukowym albo na przykład w publicznym przemówieniu premiera Saksonii (który mówi owym językiem w domu). No, może nie przemówieniu do polskich polityków, bo pan Tilich nieźle podobno mówi po polsku. A język, o którym mowa, wcale nie jest taki obcy. Weźmy na przykład: Kultura twori mosty mjez ludami, Łódź je město w Pólskej, kotrež leži w łódźskim wojewódstwje albo Wrocław je město w Pólskej a stolica Delnjeje Šleskeje. Ma přibližnje 635 tysacy wobydlerjow.

Jaki to język? Osoby, które czytają posty na blogu, są zapewne blisko rozwiązania. To ciekawe, jak odmienne od tego, co nam się wydaje, jest znaczenie najebać w języku zupełnie bliskim naszemu, że czasownik jebać pojawia się w tekście z pisma Katolicki Posoł z 1915 roku, lub że w haśle porno na Wikisłowniku można poruszyć całkiem poważne i niewesołe sprawy. Ba, dobrze też wiedzieć, że nie musimy mścić się za zniewagę, gdy obcokrajowiec spyta się nas, czy jemy kał.

To było o tym, co można znaleźć na Wikisłowniku, a wspomnę jeszcze, że na angielskich Wikibooks tworzony jest zbiór "fałszywych przyjaciół", tzn. wyrazów, które wyglądają podobnie, ale znaczą co innego w różnych językach. Polecam zajrzeć i uzupełnić lub — jeśli ktoś woli — po prostu pośmiać się z tego, do jakich nieporozumień może dochodzić między "braćmi Słowianami".

06 października 2008

Jakich języków nie ma na Wikisłowniku?

Obecnie polski Wikisłownik zawiera 202 języki. Porównując to do kilku tysięcy znanych języków wygląda to na kroplę w morzu. Jakich języków brakuje? Większości naturalnych, np. telugu i wielu sztucznych, np. toki pona, czy quenya.

Wydawałoby się, że brakujące języki są mało popularne, więc mała strata, że ich nie ma. Guzik prawda. W telugu mówi 76 milionów osób. Dla porównania po polsku około 50 milionów. Tyle tylko, że część wspólna zbiorów osób mówiących po polsku i w telugu jest widać zbyt mała, żeby ten język pojawił się na naszym Wikisłowniku. A szkoda.

No właśnie. Języki, których brakuje, są w Polsce mało popularne. Bo kogo zainteresuje telugu, oprócz części imigrantów z Indii i fanów tollywoodu? Kto będzie chciał zagłębiać się w quenyi z wyjątkiem bardzo głębokich tolkienomaniaków?

Ale to co przed chwilą napisałam nie dotyczy wszystkich brakujących. Nie ma na Wikisłowniku całej grupy bardzo ważnych języków i to popularnych wśród Polaków. Chodzi mi to o języki migowe. A w szczególności o Polski Język Migowy. Chyba nie muszę tłumaczyć jak ważny w Polsce jest to język.

Tyle tylko, że PJM ma kilka cech, które utrudniają jego usłownikowanie. Po pierwsze nie jest liniowy, po drugie nie ma alfabetycznego zapisu (a nawet w ogóle zapisu). O ile to pierwsze nie powinno być dużą przeszkodą, to to drugie prowadzi do kolejnych problemów. Największy z nich to brak możliwości nazywania stron w tym języku. Wydaje mi się, że można by to rozwiązać tylko poprzez nazywanie stron polskimi odpowiednikami znaczeń, co zabiera dużą część funkcjonalności słownika. Nie da się wtedy zrobić słownika migowo-polskiego a tylko polsko-migowy. Z drugiej strony świetnie by się w tym przypadku sprawdziła „multimedialność” Wikisłownika. Filmiki z nagraniami „wymowy”, itp.

Marzy mi się Wikisłownik zawierający wszystkie wymienione w tym poście języki. Primo, chciałabym móc łatwo sprawdzić jak coś pokazać głuchoniememu. Secundo, lubię zarówno Tolkiena jak i Tollywood.

Wygrałem zakład

W czerwcu pisząc o "EKG" Wikisłownika stwierdziłem, że Wikisłownik dobije do liczby 100 000 stron przed prognozowanym wtedy przez skrypt 24 października. I co? Miałem rację; szkoda, że z nikim nie założyłem się o żadne pieniądze ;-) Gdzieś w nocy z 5 na 6 października padła kolejna granica — przede wszystkim dzięki Nemo produkującemu hasła z węgierskiego i anonimowemu użytkownikowi z Warszawy wstydzącemu się zalogować, a piszącemu w zakresie od bośniackiego i słowackiego przez polski do arabskiego.

Mnie zaś dzisiaj udało się rozwiązać zagadnienie, czy skiba i pomazka oznaczają po górnołużycku kromkę czy naszą skibę. Znajomy Łużyczanin wyjaśnił przyjaźnie, że skiba w górnołużyckim to odkryty kawałek chleba (czyli zwykła kromka), a pomazka to już taka skiba posmarowana masłem. Ot, o takich szczegółach normalne słowniki nie piszą. A ponieważ nie piszą, trzeba robić małe śledztwa; na szczęście nie zawsze takie, jak czasem w dolnołużyckim. Ech, dolnołużycki… Ja tu kiedyś wszystko z siebie w końcu wyrzucę, ujawnię, jak to naprawdę z tym językiem jest, co ma wspólnego z Izraelem, kim są naprawdę włodarze dolnołużyckich instytucji oraz za czym stoją kultyści Latającego Potwora Spagetti. Ha! Ale to w następnych odcinkach, bądźcie cierpliwi.

26 września 2008

Europejski Dzień Języków

Dzisiaj mamy Europejski Dzień Języków, mający przypominać ludziom, że warto uczyć się języków. Sprawa ma widać dużą wagę, bo święto zostało ustanowione przez radę ministrów Unii Europejskiej w roku 2001, a teraz wspierają je Komisja i Rada Europejska. W Polsce organizowanych jest parę imprez, zarówno w większych, jak i mniejszych miastach. Co do ciekawostek, ulotka przygotowana przez europejskie instytucje zachęca do nauki języków bardzo wymownie, bo przygotowano ją w 11 językach, wszystkich dla nas obcych.

Z naszej strony chcieliśmy świętować Europejski Dzień Języków przez osiągnięcie 10 000 stron — jak na złość całkiem niedawno zepsuł się licznik (zepsuł, nie zepsuł — w każdym razie ani drgnie) i mimo heroicznych wysiłków użytkowników nie udało nam się to.

Jeszcze w kwestii języków — do 200 brakuje nam na Wikisłowniku jeszcze jednego. Może to właśnie ty znasz ten, którego jeszcze nie mamy?

24 września 2008

KISS psa w nos...

Na blogu Radomila pojawił się wpis o trudności w edycji Wikipedii. Zauważono, że powinna być stosowana reguła KISS, która sprowadza się do tego, że jak najwięcej rzeczy powinno być maksymalnie uproszczonych. Na Wikipedii jest zbyt dużo zasad, zbyt dużo szablonów i szablono-maniaków.

Zastanawiam się, jak to odnieść do Wikisłownika. Chyba moje obawy są słuszne, że Wikisłownik dogoni Wikipedię w trudności edycji już niedługo. Co może być tego przyczyną?

1. brak struktur specjalnie dla słownika; Wikisłownik i pozostałe projekty mają taki sam system edycji jak Wikipedia; musimy dostosowywać się do zastanych struktur; brak nowych rozwiązań

2. powoli, ale rośnie liczba szablonów; na początku pisało się ''[[rzeczownik|rzecz.]]'' ''[[czasownik|czas.]]'', ''z łac. [[hypothēca]]'', zobacz też: [[w:Prostota|prostota]] w Wikipedii, zobacz też: [[musika]] (i od razu wszystko było jasne). Teraz pisze się {{rzecz}}, {{czas}}, {{etym|łac|hypothēca}}, {{wikipedia}}, {{zobteż}}, {{zobteż2}} i inne... Że już nie wspomnę o ilości parametrów do spamiętania... Boję się myśleć, ile tego jest na Wikipedii...

Być może na Wikipedii ze strony zwolenników szablonów padał argument, że kod strony jest dla edytorów, a efekt jest ważniejszy, to właśnie efekt końcowy oglądają czytelnicy. Ha! Taki wał! Powiem szczerze - wolę edytować strony pełne HTMLa niż hasła Wikipedii. Wróćmy jednak na nasz poczciwy Wikisłownik...

Zastanawiam się nad pomysłem powrotu do starych zasad. Co by było, gdyby nie było szablonu {{wikipedia}}, a zamiast niego pisali jak powyżej? Albo zamiast {{zobteż}} i {{zobteż2}} pisać także jak powyżej?

Tylko proszę, nie piszcie mi, że szablony są dla dobra serwerów, albo że szablony to krótszy zapis i mniej znaków jest zapisywanych... Jakoś gdy boty edytują setki tysięcy znaków w ciągu minuty to nikt nie mówi o serwerach, a gdy my chcemy uprościć edycję do pełnego widoku hasła, to zasłaniacie się serwerami albo - o zgrozo - prostotą edycji. Pisząc "pełny widok" mam na myśli, żeby jak najwięcej tego, co widzi czytelnik było w kodzie strony. I tak mamy już szablony w szkielecie hasła. Ja nie chcę więcej! Do czego to doszło, żeby na zlocie uczyć ludzi z Wikipedii jak tworzyć proste hasła słownika?!

14 września 2008

O niebiosa, jak ludzie mogą szukać takich rzeczy?

Statystyki są niewzruszone: tak jak ponad rok temu najczęściej oglądanym hasłem na Wikisłowniku pozostaje chuj. Gdy dzienna liczba wejść na stronę główną waha się między 1000 a 1600, to darzone szczególną uwagą hasło jest czytane od lipca dzień w dzień średnio ponad 400 razy — i mogę się założyć, że ludzie nie szukają w nim bynajmniej opisu języka Indian. Nieźle, w pierwszej pięćdziesiątce, trzymają się też hasła cwel, dupa, kurwa, a z międzynarodowych bitch. Dla porównania, o kulturze chce dziennie czytać mniej niż 20 osób, o sztuce zaś najwidoczniej prawie nikt (brak w zestawieniu).

Pewnie gdybym miał parę krzyżyków więcej na karku, zacząłbym w tym miejscu rozwodzić się nad upadkiem moralności w naszych czasach i zepsuciem dzisiejszej młodzieży, lub też w świętym uniesieniu zacząłbym krucjatę przeciwko wulgaryzmom; czytelników chciałbym od razu uspokoić, że nic podobnego nie szykuję. ;-) Gdy przyjrzymy się uważniej statystykom, zauważymy, że w ścisłej czołówce utrzymują się też niezmiennie hasła rzadko (ponad 300 wejść dziennie), w ogóle, wziąć — czyli słowa, które bardzo często są pisane nieprawidłowo. A co tam, może oto oznaka, że ludzie zaczęli uważać nie tylko, co piszą po polsku, ale też jak piszą? Skoro na Wikisłowniku jest wyjaśnione obok prawidłowej pisowni, jak nie należy słowa pisać, to ludzie znajdują te hasła? Na liczbę dziennych wejść na hasło „chuj” należałoby więc patrzeć optymistycznie: 400 ludzi oglądających dziennie tę stronę być może chce upewnić się, jak dobrze zapisać to słowo, poznaje etymologię i przyczyny, dla której pisownia przez samo „h” jest niewłaściwa.

Gdyby ktoś jeszcze załamywał ręce nad językiem obecnej młodzieży, niech zwróci uwagę, że ponad 150 osób dziennie czyta hasło per aspera ad astra, popularne są też dum spiro, spero, pejoratywny i sarkazm (to ostatnie nie wiedzieć czemu ma aż około 300 wejść dziennie). Na początku września absolutnym hitem jest jątrew, odwiedzane średnio przez pierwszych 9 dni miesiąca przez imponującą liczbę 934 osób dziennie. Co się dzieje? Nie mam pojęcia, może jakiś mały efekt Slashdota? Albo w „Polityce” w jednym z artykułów ktoś użył tego określenia i cała Polska szuka teraz, co ono znaczy? :-) Sam przyznam się, że dzisiaj słowo zobaczyłem po raz pierwszy na oczy.

08 września 2008

Co ma wspólnego golizna z lasem






Jest sobie w dolnołużyckim słówko „góla”, które jest o tyle dziwne, że oznacza „las”. Gdy je zobaczyłem po raz pierwszy, wydało mi się bardzo podejrzane - no bo jak to, pierwsze skojarzenie nasuwa się z czymś gołym, a las bynajmniej gołym terenem nie jest. Po jakimś czasie okazało się, że nie tylko u mnie wyraz ten powoduje taką reakcję; ba, łamią sobie nad nim głowę dolnołużyccy etymolodzy. Wpadł mi w ręce niedawno 34 numer „Nowego Casnika” z tego roku, gdzie temat pochodzenia tego wyrazu zajmuje 2 (!) strony. A sprawa nie jest trywialna, bo do wyjaśnienia zaprzęgnięto badania archeologiczne i wiedzę o sposobie orania roli w Średniowieczu.

Na zapoznanie się z artykułami tam zamieszczonymi miałem w pociągu dużo czasu, więc przewałkowałem temat od początku do końca tyle razy, że doszedłem ostatecznie do sensu całości bez użycia słownika. Artykuły były bardzo ciekawe i jakby nie było, przekonały mnie do przedstawionych wyjaśnień. Naturalnie stwierdziłem, że szkoda by było, żeby efektami moich zmagań z opisami użycia pługa i płodozmianu nie podzielić się z innymi. Oto więc jest: hasło góla z moim zdaniem najdłuższą etymologią na Wikisłowniku. Nie, nie zajmuje dwóch powierzchni ekranu, więc zachęcam do rzucenia okiem. ;-)

01 września 2008

Wikisłownik pomysłem na reklamę

Co może mieć wspólnego Wikisłownik z reklamami? Zobaczcie, co znalazłem dziś jako wkładkę w dodatku telewizyjnym papierowej Gazety Wyborczej z tego tygodnia:



Reklama ma cztery strony, tak wygląda pierwsza z nich, mająca zachęcać do zajrzenia dalej. W środku nie ma nic wartego omówienia w tym miejscu (zdjęcia i ceny produktów), zostańmy więc przy pierwszej stronie. Wygląda znajomo? Ha, coś mi to przypomina – pomyślałem - coś jakby definicja w Słowniku Języka Polskiego PWN albo Wikisłowniku. Tknięty przeczuciem wrzuciłem „bzik” do wyszukiwarki Wikisłownika – wyskoczyło prawie kropka w kropkę to samo, jak na kartce. Dokładniej, przed ukazaniem się reklamy hasło wyglądało tak, ale 30 sierpnia, czyli już po fakcie, ktoś je nieco rozbudował i wygląda ono inaczej (chyba lepiej). Tak, tak, przyznaję w związku z tym, że nie odkrywam pisząc niniejszy wpis Ameryki; nie wiem niestety, kto był bardziej spostrzegawczy ode mnie, bo edycji dokonano spod adresu IP warszawskiej Neostrady.

Wracając do meritum: czyż fakt, że układ typograficzny hasła na Wikisłowniku został wykorzystany na stronie otwierającej reklamę, nie poświadcza o tym, że w prostocie tego układu kryje się też funkcjonalność i piękno? Że robimy słownik nie tylko dobry, ale też ładny? Być może; w każdym razie według szwedzkiej firmy robimy najwidoczniej słownik pasujący do ich mebli ;-)

Kończąc zachwyty nad tym, że Wikisłownik znajduje zastosowanie w coraz to nowych, nie zawsze spodziewanych miejscach (oby tak było dalej), chciałbym tylko nadmienić, że byłoby miło, gdyby gdzieś w treści reklamy pojawiło się, choćby drobnym drukiem i na marginesie, słowo „Wikisłownik”. Nie jest uprzejmie brać czyjeś pomysły i udawać, że są wyłącznie własne.

Przedstawiona grafika jest chroniona prawem autorskim i nie może być bez zgody jej twórców kopiowana ani modyfikowana. W niniejszym artykule została użyta na podstawie art. 29 ustawy z dn. 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych w celu analizy krytycznej.

11 sierpnia 2008

Zainteresowanie serwerami

Zastanawia mnie jedna kwestia...

Jaki jest sens upominania użytkownika tekstami typu:

[...] niepotrzebnie obciąża serwery.



Może wydaje Wam się to głupie, ale co takiego zwykłego szarego burka zwanego edytorem powinno obchodzić, że serwery Fundacji nie ogarniają edycji? Nikt tutaj nie zakładał konta z myślą o niewydolności i obciążeniach serwerów. Co go to obchodzi? To nie jego problem. On tutaj jest od edytowania, a nie od martwienia się, że jego edycje podgrzewają serwery. Ja osobiście dostałem kilka takich informacji i szczerze mówiąc miałem ochotę w ogóle nie edytować... Jeśli mamy serwery za słabe, to może trzeba napisać w sitenotice, żeby nie robić zbyt wiele drobnych niemerytorycznych edycji? Przepraszam, ale trochę irytuje mnie taka troska serwerami przelewana na szarych edytorów... Edytorzy nie są od martwienia się o sprawy techniczne; oni są od edytowania a admini są od wyłapywania wandalizmów i pomagania innym w edycji.

Jeśli ktoś chce poprawiać literówki - niech poprawia. Jeśli ma ochotę zmieniać linki do przekierowań - niech zmienia.

Jaka w tym "śmiałość edytowania", skoro mam się ograniczać?



Druga kwestia odnosi się do Wikisłownika. Niektórzy wpisują prośby o wypełnianie opisu zmian przy tworzeniu nowej strony. Argument: zaśmiecanie OZ. Zaśmieca? I co z tego? To problem patrolującego, a nie tworzącego. Po to właśnie był tworzony podgląd początkowego fragmentu strony.

28 lipca 2008

Test nowego wyglądu haseł

Dyskutowaliśmy ostatnio nad układem haseł na Wikisłowniku oraz jego "rozluźnieniem", czyli radzeniem sobie z hasłami, które upychają zbyt dużo informacji w jednym miejscu. Najnowsza propozycja zbliża nas nieco do Niemców – informacje nie są umieszczone w tej samej linijce, jak do tej pory, ale w następnym wierszu; umożliwia też rozbijanie długiego tekstu na kilka linijek. Z tym, że nie zniemczamy się do końca ;-) Kod hasła niemieckiego i polskiego znacząco różni się długością. Możecie porównać – "nić" po staremu i nowemu.

Nowy układ został testowo wprowadzony na całym Wikisłowniku – na szczęście przy używanej przez nas konstrukcji haseł taka operacja jest szybka i nie wymaga modyfikacji samych haseł. Jeśli się podoba – zostanie na stałe. Czekamy na opinie na temat zmian.

25 lipca 2008

Restrukturyzacja Wikisłownika

Czasem mam wrażenie, że boimy się wprowadzać większe zmiany do Wikisłownika... Zmiany, które przecież są konieczne.

1) Jedną z najważniejszych zmian, jakiej wymaga projekt, jest zmiana szablonu hasła. Uważam to za priorytet. Wszyscy mówią, że zmiany są potrzebne, ale pomysłami nikt się nie podzieli. Mój pomysł jest taki, aby szablon hasła był jeden dla danego języka. Dosłownie - jeden. Mam tu na myśli coś w rodzaju odpowiednika infoboksu na Wikipedii. Jeśli potrzebne byłyby jakiekolwiek zmiany, dokonałoby się zmian tylko w jednym szablonie (szablonie danego języka). Nawet jeśli taki szablon języka nie będzie doskonały - wystarczy poprawić TYLKO JEDEN szablon i cały język mamy załatwiony. Praktycznie nie potrzebowalibyśmy botów do masowych zmian.

2) Jeśli już będą szablony dla każdego języka, trzeba zmienić system tworzenia nowych stron/haseł (po przemyśleniu stwierdzam, że to jest trudne dla 'nowych' ludzi). Myślałem tutaj o rozwijanej liście, z której wybierałoby się odpowiedni język. Po kliknięciu, w miejscu kursora, pojawia się odpowiedni szablon.

3) Trzeba też przetrzebić strony pomocy. Wiele zasad stosujemy, jednak w Pomocy nie ma o nich ani słowa.

4) Zająć się przysłowiami - Wikisłownik czy Wikicytaty? Na Wikipedii są jednocześnie linki do kategorii z przysłowiami na Wikicytatach jak i alfabetyczny indeks... do Wikisłownika. Osobiście uważam, że powinny być na Wikicytatach.

5) 'Język' śląski. Czy czas na rewolucję? Robimy osobną kategorię czy zostawiamy jako regionalizm?


Pomysły (zebrane):

6) Zmieniłbym system numeracji. Teraz mamy:
odmiana: (1.1) ... ... ...; (1.2) ... ... ...

Zmieniłbym na:
odmiana:
(1.1) ... ... ...
(1.2) ... ... ...

I tak dalej. Podobnie z innymi sekcjami (synonimy, antonimy, uwagi...). Teraz, gdy tak zrobimy, tworzy się duża i nieprzyjemna pusta przestrzeń.

7) wprowadzić coś w stylu: "czy chodziło Ci o ...?" do wyszukiwania.

8) dodanie flag jako wizualnej informacji, w jakich językach jest zdefiniowane hasło

9) dodatkowa zakładka "Źródła", na której będzie można (wręcz należało będzie) podać drukowane źródła co do znaczeń danego hasła wraz z linkiem do weryfikowanej wersji

10) ustawienie w preferencjach, które języki nas interesują - sekcje pozostałych byłyby po prostu ukrywane



Chciałbym poruszyć jeszcze jedną kwestię. Chodzi o slangi i gwary specjalistyczne. Nie widzę żadnego normalnego słownikowego uzasadnienia, dla którego hasła z indeksów gwar specjalistycznych powinny być linkowane. Weźmy dla przykładu Indeks:Polski - Gwara muzyków rockowych. Hasło 'pałker'. Super słownikowe... 'Elektryk - gitara elektryczna', 'wióry - ...'. Chyba nie muszę dokładniej wyjaśniać o co mi chodzi...


Wymieniłem kilka niedoskonałości Wikisłownika, o których wiedzą praktycznie tylko stali edytorzy projektu. Ruszmy z tym wszystkim! Tsca i Youandme (m.in. oni) pracowali sporo nad obecnym kształtem projektu 4 lata temu, ale teraz widać, że jest sporo niedociągnięć. Nie możemy jednak mieć do nikogo pretensji. I tak mamy o niebo lepszą organizację niż inne Wikisłowniki (choć są też lepsze pomysły). Jeśli kilka osób 4 lata temu mogło wypracować zasady i szablon, to teraz tym bardziej jesteśmy w stanie udoskonalić to wszystko, aby czytanie, przeglądanie, edytowanie i tworzenie haseł było jak najłatwiejsze i w ogóle cacy. Sam przecież tego wszystkiego nie zrobię ;). Może warto zrobić "skajpową" konferencję, na której przedyskutujemy pomysły? Czas leci, a haseł przybywa...

01 lipca 2008

Dobre hasło/Złe hasło

Ostatni post Radomila podsunął mi pewien pomysł. Pomyślałem o systemie oceniania haseł. Moja wizja jest taka, żeby przy każdej sekcji języka (obok "edytuj") dodać znaki (napisy?, grafika?) dające możliwość oceny danego hasła. Zaleta jest taka, że takie hasło będzie mógł szybko ocenić każdy odwiedzający. Nie da się ukryć, że większość naszych haseł to stuby, więc przy sprawdzaniu takich haseł nie byłoby problemu. Gdzie zbierać wszystkie kliknięcia dla danego hasła...? Jak określić wartość takich statystyk gdy kilka osób kliknie sobie "dla jaj"...? Tego jeszcze nie przemyślałem. Propozycje mile widziane. Również znajomych z Wikipedii. Może to i zbyt futurystyczny pomysł, ale wolałem napisać, bo może ktoś na coś wpadnie ciekawego.

22 czerwca 2008

Pomoc gorsza od wandalizowania

Ostatnio pojawiła się sprawa, z którą chyba Wikisłownikarze nie mieli jeszcze do czynienia (na Wikipedii to co innego ;)). Sprawa Pana T. przejdzie do historii Wikisłownika. Zawsze myślałem, że Wikisłownik tworzy się troszkę łatwiej od Wikipedii. Hasła tworzy się szybciej, łatwiej i przyjemniej. Nie trzeba znać nadmiernej ilości szablonów (a wszystkie kwalifikatory są intuicyjne) - wystarczy tylko kliknąć i mamy gotowy szablon hasła, do którego trzeba wpisać znaczenie i mamy stuba. Na Wikipedii inaczej patrzy się na stuby. Dla Wikisłownika, jak dla każdego normalnego słownika, najważniejsze jest znaczenie słowa. Ważny jest też prosty przykład użycia, którego wymyślenie nie powinno sprawiać nikomu problemu. Hasła z szablonem i tylko poprawnym znaczeniem (nawet niepodlinkowanym) nikt nie skasuje. Nie jest to specjalnie pożądane, ale lepsze znaczenie hasła niż brak znaczenia.

Okazuje się jednak, że Wikisłownik jest wciąż bardzo skomplikowany... Są użytkownicy, którzy mimo szczerych chęci i pragnienia rozwoju słownika, wykonują więcej szkody niż pożytku. Pytanie: jak długo można pouczać? Jak długo można wprowadzać kogoś w tak proste wydawałoby się utworzenie prostego hasła? Jak długo można chodzić za kimś takim na OZ, sprawdzać każdą jego edycję, poprawiać po nim i wpisywać mu w dyskusję co robi źle? Co innego, gdy jest to jakiś IPek, który z doskoku zrobi dwa hasła i znika, a co innego, gdy jest to zalogowany permanentny użytkownik, który swoimi edycjami wymusza na bardziej doświadczonych osobach pilnowanie jego działań niż zajęcie się rozwojem haseł. Czy potrzebujemy takich ludzi? Wydawałoby się, że nic z kimś takim nie można zrobić, bo jesteśmy wyrozumiali i wciąż mamy nadzieję, że może się w końcu nauczy.

Osobiście uważam, że nie potrzebujemy takich osób. Jeśli ktoś ma robić hasła, które wymagają praktycznie utworzenia od nowa, to niech niczego nie robi. Jeśli po miesiącu czy dwóch nie docierają do niego nasze uwagi, pouczenia, wklejane diffy itp., to czego można się spodziewać po kimś takim? Mamy go zaprosić na bezpłatne warszaty? Może filmik instruktażowy?

Rozwiązanie jest proste: zablokować. Ale czasem nawet blokada nie powstrzymuje. Dynamiczne IP to przekleństwo. Blok okazuje się gorszy, niż jakby działał zalogowany, ponieważ edycji IPeków jest dużo i praktycznie każdą trzeba sprawdzać. Jak na razie udaje się nad tym zapanować, ponieważ Wikisłownik toczy się dość wolno (ale stale :)). Jeśli jednak OZ przyspieszy, nie będzie czasu na całe masy tekstów instruktażowych w dyskusji użytkownika. Będzie jak na Wikipedii - raz, (ewentualnie: dwa, trzy), blok. Uczniowie podstawówek - do zeszytów!

06 czerwca 2008

Jak bije serce Wikisłownika?

Znalazłem dzisiaj na Tablicy ogłoszeń Wikipedii narzędzie rysujące "EKG" projektu. Możecie sobie porównać wykresy dla Wikisłownika i Wikipedii. Ciekawi mnie, czy mała zapaść (prawie zero nowych artykułów) w okolicy 17 maja miała związek z przygotowaniami do wyjazdu na Konferencję Wikimedia Polska (22 maja). Interesujący jest też skok – na przełomie marca i kwietnia powstawało nawet 300 artykułów dziennie; czy czasem nie wtedy była przerwa świąteczna? ;-)

Jeszcze ciekawostka: wykresy pokazują, kiedy szacunkowo projekt osiągnie kolejną okrągłą liczbę artykułów. Nam 100 000 stron przepowiada 24 października 2008. A zakład, że będziemy mieli wcześniej?

29 maja 2008

Po konferencji

Konferencja w Rabce już za nami. Mimo różnych problemów technicznych udało nam się zrealizować wszystkie punkty programu (dzięki dla PMG za użyczenie laptopa i wytrwanie z nami do 3 w nocy). Zdobyliśmy też paru nowych redaktorów. Slajdy z wykładu można zobaczyć na stronie Stowarzyszenia Wikimedia Polska.

O przebiegu konferencji rozpisywano się już na innych blogach i na Wikinews, więc nie będę się powtarzał. Zachęcam za to do obejrzenia ilustrowanej historyjki na bazie wydarzeń z konferencji.

20 maja 2008

3 dni do Rabki: Wikisłownik na Dniach Książki Żydowskiej

prelegenciJuż w czwartek, 22 maja zaczyna się Konferencja Wikimedia Polska 2008. Do Rabki przyjadą polscy użytkownicy projektów Fundacji Wikimedia (oraz goście z zagranicy), by na czterodniowym spotkaniu wysłuchać wykładów i prezentacji na temat projektów, wymienić opinię, wreszcie poznać się lepiej i miło spędzić długi weekend. Na konferencji nie zabraknie też przedstawicieli Wikisłownika: przygotowaliśmy prezentację objaśniającą, czym jest nasz projekt i jak jest tworzony, oraz warsztaty, gdzie chętni postawią pierwsze kroki jako autorzy haseł na Wikisłowniku.

W poniedziałek miała miejsce próba generalna przed Konferencją: autorzy Wikisłownika – joystick, Rovdyr i Pioter poprowadzili prezentację na XI Dniach Książki Żydowskiej w Warszawie. Prelekcja pod tytułem „Jidysz żyje w internecie – prezentacja internetowego słownika języka jidysz” przybliżyła gościom projekt jidysz lebt realizowany w ramach Wikisłownika. Uczestnicy otrzymali niniejsze ulotki.

19 maja 2008

Chcieć, ale jak, czyli o tym, jak niełatwe bywa pisanie słowników

Od pewnego czasu zaczęło mnie gryźć jedno hasło. Chodzi o kśěś, czyli „chcieć” w języku dolnołużyckim – jakby nie było, czasownik o istotnym znaczeniu. Za internetowym słownikiem Instytutu Łużyckiego jako formy czasu przeszłego podane były kšěł/kšěła. Nie podobały mi się te konstrukcje, bo w zasadzie znikąd pojawiało się „s” z daszkiem zamiast „ś”, a i samo ich brzmienie zdawało mi się dziwne (czy „kszieł” ma coś wspólnego z polskim „chciał”, nie mówiąc już o trudnościach z wymówieniem takiej zbitki?). Ale cóż – ze względu na słabą znajomość dolnołużyckiego zostawiłem to w spokoju. Współautorem internetowego słownika był Manfred Starosta – absolutny autorytet dolnołużyckiego językoznawstwa, najwyższa instancja. Uznałem, że z takim kimś nie ma co się kłócić.

Ostatnio naszła mnie jednak fala wątpliwości. Co w takiej sytuacji począć? Normalnie człowiek bierze inny słownik i porównuje. Niestety nie mam dostępu do radzieckiego słownika rosyjsko-dolnołużyckiego (nawet gdybym miał, i tam nie miałbym z niego wielkiego pożytku, gdyż rosyjskiego nie znam), a po polsku nie wyszła po prostu żadna poważna pozycja. Szukanie w Google może być zwodnicze – tekstów po dolnołużycku w Internecie jest mało; są fora dyskusyjne, ale ciężko stwierdzić, kto na nich jest „prawdziwym” Dolnołużyczaninem. W zasadzie mam wrażenie, że więcej tam zapaleńców z Polski i Czech oraz gości z Górnych Łużyc niż Dolnołużyczan. Wyników dla „kśěł” było więcej, ale do czego przywiązywać większą wagę: słownika o niezaprzeczalnej renomie czy swobodnym dyskusjom, co do których nie wiadomo do końca, w jakim są prowadzone języku (czasem ciężko jest odróżnić górnołużycki od dolnołużyckiego; a jak będzie pisał Górnołużyczanin starający się pisać po dolnołużycku?).

Jeden z wyników zwróconych przez wyszukiwarkę zabił mi do tego niezłego ćwieka: były tam użyte obie formy. Literówka? A może jakaś głębsza przyczyna? Podzieliłem się moimi wątpliwościami z Joystickiem, który naprowadził mnie na jeszcze jeden trop: reforma pisowni. W dolnołużyckim w roku 1995 nastąpiła reforma, w następstwie której np. „spěwaś” przeszło w „spiwaś”, a „gornoserbski” w „górnoserbski”. Wyobraźmy sobie, że forma z „š” jest według starej, a z „ś” – według nowej pisowni. Autor artykułu mógł się nie przyzwyczaić do nowych reguł i napisał raz tak, a raz tak; program do sprawdzania pisowni albo osoba-korektor mogłaby to przeoczyć.

W podobnych sytuacjach wyjątkowo przydatni okazują się native speakerzy. Gdybym, na przykład, rozwijał słownik chorwackiego, nie musiałbym nawet ich szukać – po prostu napisałbym do „naszego” Frano. Niestety, native speakerów nie uświadczy (zazwyczaj) ani na łużyckim kanale IRC-owym Wikipedii, ani na samej dolnołużyckiej Wikipedii. Mógłbym tam liczyć co najwyżej na pomoc dwóch Niemców, tak jak ja uczących się dolnołużyckiego (co prawda, dłużej). Ostatecznie zwróciłem się o poradę do Dundaka – Górnołużyczanina, który kiedyś nagrywał na moją prośbę wymowę górnołużycką, i który zna dolnołużycki. W jego szkolnym słowniku była pisownia przez „ś”. Nie zostało nic innego, jak zwrócić się bezpośrednio do najwyższej instancji z prośbą o wyjaśnienie. Uprzejmą i szybką odpowiedź dostałem dzisiaj – faktycznie, w słowniku była literówka. W problematycznym artykule ktoś po prostu raz nacisnął źle klawisz.

18 maja 2008

Wikisłownik: 100 000 haseł

Polski Wikisłownik (według moich obliczeń) wczoraj - 17 maja 2008, przekroczył barierę 100 000 haseł.

Tutaj znajdują się statystyki na 10 maja.

Niektórych może zmylić liczba 91 600 na stronie głównej. Nie zapominajmy, że liczba ta ukazuje liczbę stron, nie haseł. Na jednej stronie znajduje się od jednego do kilku haseł, a zgodnie z tymi statystykami, mamy ponad 100 000 haseł.

Mamy ponad 8 000 nagrań. Zrobiłem przy okazji mniejsze statystyki najaktywniejszych osób → "kto-ile"

Wikisłownik się rozwija, co cieszy. Dziękuję wszystkim Wikisłownikarzom za współpracę, przyjazną atmosferę i nie ustawajmy w działaniach. Jeszcze jest sporo do zrobienia.