Uporabnik:Karolina~slwiki/Wikipedija:Osebni podatki

Iz Wikipedije, proste enciklopedije

Osebni podatki so poseben nabor metapodatkov, za katere je zaželeno, da se jih doda biografskim člankom (in zgolj takšnim člankom). Nabor teh podatkov sestavljajo podatkovna polja z osnovnimi informacijami o osebi (ime, datuma rojstva in smrti), ki jih lahko orodja za katalogiziranje samodejno izvlečejo in obdelajo, kar ne velja za ostalo vsebino v Wikipediji. Obdelane podatke se lahko nato uporabi za različne namene, kot so samodejna kategorizacija, omogočanje naprednih iskalnih zmožnosti, ustvarjanje statističnih analiz in seznamov rojstnih datumov.

Dodajanje predloge {{osebni podatki}} ne spremeni običajnega prikaza biografskega članka, saj ti podatki niso namenjeni povprečnemu obiskovalcu Wikipedije. Osebni podatki ostanejo skriti, dokler uporabnik ne spremeni nastavitev prikazovanja takšnih podatkov v svoji uporabniški slogovni datoteki.

25. oktobra 2008 je angleška Wikipedija vsebovala več kot 30.000 člankov z osebnimi podatki. (Oktobra 2008 je nemška Wikipedija imela več kot 233.000 člankov s "Personendaten".)

Motivacija[uredi | uredi kodo]

Brez enotnega oblikovanja je zelo težko samodejno izvleči uporabne podatke iz biografskih člankov. Prav tako je nemogoče ustvariti abecedni seznam vseh biografskih člankov, saj je pri naslovih biografskih člankov navadno najprej navedeno ime, ne pa priimek. Če dodamo standardizirane metapodatke takšnim člankom, olajšamo ustvarjanje novih aplikacij za vsebino v Wikipediji, kakršne so Wikipedija CD-ROM-i, aplikacije za iskanje po meri itd. Upamo, da bo to prvi korak k bogatejši semantični vsebini v Wikipediji.

Uporaba osebnih podatkov[uredi | uredi kodo]

Ogled osebnih podatkov[uredi | uredi kodo]

Posnetek zaslona z osebnimi podatki Krištofa Kolumba

Po privzetih nastavitvah so osebni podatki za vse obiskovalce nevidni. Če jih želite videti, naredite nekaj od naslednjega:

  • Vnesite ta JavaScript v Special:Mypage/monobook.js, kar bo dodalo gumb v zgornjo vrstico z gumbi v brskalniku. Če boste želeli videti ali skriti polja z osebnimi podatki, boste kliknili ta gumb.
  • Lahko pa uredite svojo uporabniško slogovno datoteko tako, kot je spodaj opisano. Če se odločite za to možnost, bodo osebni podatki vedno prikazani.
  • Lahko pa se odločite za oba načina, saj se ne izključujeta. Poleg tega ima zgoraj opisani JavaScript uporabne funkcije za urejanje osebnih podatkov.

Če želite, da bodo osebni podatki vedno prikazani, se najprej prijavite v Wikipedijo. Nato uredite (ali ustvarite) stran na naslovu Special:Mypage/monobook.css in dodajte naslednjo vrstico:

table.persondata {display:table;}

če uporabljate brskalnik Microsoft Internet Explorer 7 ali zgodnejše različice, vnesite spodnjo vrstico :

table.persondata {display:block;}

Nasvet: Ko shranite monobook.css, počistite predpomnilnik brskalnika, saj drugače ne boste videli sprememb. Če uporabljate brskalnik Mozilla/Firefox (Windows), pritisnite Ctrl-Shift-R; če uporabljate brskalnik Mozilla/Firefox/Camino (Mac), pritisnite Cmd-Shift-R; če uporabljate brskalnik Internet Explorer (Windows), pritisnite Ctrl-F5; če uporabljate brskalnik Opera (vsi operacijski sistemi), pritisnite F5; če uporabljate brskalnik Safari (Mac), pritisnite Cmd-R; če uporabljate brskalnik Konqueror (Linux), pritisnite Ctrl-R. Nekateri uporabniki Firefoxa (na OS Linux) pravijo, da je treba na strani monobook.css dodati obe vrstici (čeprav se ju verjetno lahko poenostavi v table.persondata {display:block table;}), enako velja za osebe, ki uporabljajo več različnih brskalnikov.

Če so pod to vrstico prikazani podatki o Ferdinandu Magellanu, ste uspešno spremenili nastavitve za prikaz osebnih podatkov tako, da so zdaj vidni.

V nasprotnem primeru sledi prejšnji vrstici neposredno ta vrstica.

Če želite polje z osebnimi podatki ponovno skriti, izbrišite vrstico, ki ste jo dodali na svojo uporabniško slogovno stran.

Opozorilo: Ker so osebni podatki običajno nevidni, uredniki člankov navadno ne upoštevajo videza članka s prikazanimi osebnimi podatki. Zaradi tega se vam bodo mogoče nekateri konci člankov zdeli nenavadni, če boste imeli omogočeno prikazovanje teh podatkov. Iz istega razloga pri oblikovanju biografskih člankov upoštevajte, da večina obiskovalcev nima omogočenega prikazovanja teh podatkov. Zato oblikujte članek tako, da bo videz prilagojen povprečnemu obiskovalcu (torej videz brez prikazanih osebnih podatkov). Najboljši videz članka boste ustvarili tako, da sledite navodilom na tej strani glede postavitve polja z osebnimi podatki v članku.

Uporaba predloge[uredi | uredi kodo]

Če želite uporabiti predlogo {{Osebni podatki}} kopirajte spodnje besedilo na konec biografskega članka in ročno vnesite podatke ali pa uporabite ta JavaScript, ki lahko samodejno doda predlogo in na podlagi podatkov v infopolju izpolni osebne podatke. Če boste predlogo dodali ročno, jo postavite pred kategorijami in medjezikovnimi povezavami. {{DEFAULTSORT:Sort key}} ni prava predloga, ampak del kategorizacije. Zato jo je treba postaviti med osebnimi podatki in kategorijami. Enako velja za predlogo {{Lifetime}}, ki dopolnjuje DEFAULTSORT.

<!-- Metapodatki: glej [[Wikipedija:Osebni podatki]] -->
{{Persondata
|NAME              = 
|ALTERNATIVE NAMES = 
|SHORT DESCRIPTION = 
|DATE OF BIRTH     = 
|PLACE OF BIRTH    = 
|DATE OF DEATH     = 
|PLACE OF DEATH    = 
}}

Nato izpolnite podatkovna polja. Pazite, da prvo vnesete priimek in nato ime (na enak način kot pri seznamih za kategorije). Ne brišite praznih podatkovnih polj, če oseba še vedno živi, ampak zgolj pustite polji za datum in kraj smrti prazni. Spodaj je primer pravilno izpolnjene predloge:

<!-- Metapodatki: glej [[Wikipedija:Osebni podatki]] -->
{{Persondata
|NAME              = Magellan, Ferdinand
|ALTERNATIVE NAMES = Magalhães, Fernão de (portugalsko); Magallanes, Fernando de (špansko)
|SHORT DESCRIPTION = pomorščak in raziskovalec
|DATE OF BIRTH     = spomladi 1480
|PLACE OF BIRTH    = [[Sabrosa]], [[Portugalska]]
|DATE OF DEATH     = 27. april 1521
|PLACE OF DEATH    = [[Otok Mactan]], [[Cebu]], [[Filipini]]
}}

Parametri[uredi | uredi kodo]

S parametri NAME (ime), ALTERNATIVE NAMES (druga imena), SHORT DESCRIPTION (kratek opis), DATE OF BIRTH (datum rojstva), PLACE OF BIRTH (kraj rojstva), DATE OF DEATH (datum smrti) in PLACE OF DEATH (kraj smrti) ustvarite zapis o osebnih podatkih. V prihodnosti bo mogoče več polj. Trenutno ni treba dodajati wikipovezav v osebnih podatkih, vendar bodo mogoče uporabne za nadaljnje aplikacije. Zato jih lahko po želji dodate.

Pri izpolnjevanju podatkovnih polj upoštevajte naslednje smernice:

Ime, druga imena in nazivi[uredi | uredi kodo]

Pri vnašanju imena osebe |NAME uporabite naslednjo obliko: priimek, ime, srednja imena, naziv. V večini primerov je preprosto. Ime »George Walker Bush« bi zapisali »Bush, George Walker«. Imena, pri katerih je prvo napisan priimek, kar je pogosto v azijskih kulturah, se zapiše brez vejice: »Ho Chi Minh« se zapiše kot »Ho Chi Minh«. V nekaterih primerih lahko pride do nejasnosti pri priimku. Če boste v dvomu, oblikujte ime tako, kot predvidevate, da bi bilo zapisano na abecednem seznamu. Ime Ludwig van Beethoven bi na primer na abecednem seznamu našli pod »Beethoven« (in ne »van«), medtem ko bi ime Townes Van Zandt našli pod »Van Zandt«. Če boste negotovi, vprašajte nekoga, ki se spozna na to temo, kako bi napisal ime na abecednem seznamu, ali pa si oglejte kakšen vodič za kategorizacijo, kot je AACR2. Imena, ki vsebujejo »van/Van«, »del/Del« ipd., so v večini evropskih držav na abecednih seznamih zapisana tako, da je na prvem mestu del priimka, ki ni predimek. Ime »Guillermo del Toro« bi torej na abecednem seznamu bilo zapisano kot »Toro, Guillermo del«. V angleško govorečih državah so na abecednih seznamih takšna imena zapisana tako, da je na prvem mestu predimek: »del Toro, Guillermo«. Pri imenih brez priimkov (npr. »Karel Veliki«) ne obravnavajte drugega dela imena kot priimek: »Veliki, Karel«, ampak ime zapišite takšno, kot je: »Karel Veliki«.

Navadno je priporočljivo, da napišete celotno ime, da ne bo prihajalo do zamenjav s podobnimi imeni. Ne dodajajte poklicnih nazivov (kot so »dr. med.«, »prof.« ali »dr.«), razen če niso del plemiškega naziva.

V neobvezno polje |ALTERNATIVE NAMES vnesite druge pogoste oblike imena (navadno v drugih jezikih), toda ne zgolj okrajšane oblike polnega imena. Oblika zapisa imena v tem polju je enaka kot v polju |NAME, toda z dodatnimi informacijami. Imena ločite s podpičjem:

|ALTERNATIVE NAMES=Drugo ime1 (jezik); Drugo ime2 (jezik); Drugo ime3 (umetniško ime/psevdonim ipd.)

Drugo ime v tujem jeziku se doda le, če je oseba s tujim jezikom posebno povezana (japonski zapis imena Ivan Cankar na primer ni pomemben metapodatek za članek o njem v slovenski Wikipediji, medtem kot sta italijanska in španska oblika poslovenjenega imena »Krištof Kolumb« pomembni, saj sta to izvirni obliki njegovega imena, in se ju zato doda kot drugi imeni).

Kratek opis[uredi | uredi kodo]

V polje |SHORT DESCRIPTION vnesete kratek opis osebe, ki naj bo jedrnat in obenem dovolj informativen, tako da bo lahko nekdo, ki bo prebral vnos v razpredelnici, približno vedel, kdo je ta oseba in kakšen je njen poklic. Opisne besede zapišite z malo začetnico, razen če niso lastna imena. Če ima naslov članka več pomenov ali če obstaja razločevalna stran, ki usmerja na biografski članek, je priporočljivo v polje |SHORT DESCRIPTION dodati tudi takšno razločevalno informacijo: |SHORT DESCRIPTION= matematik in |SHORT DESCRIPTION= ornitolog sta na primer primerna kratka opisa za osebi Alexander Wilson (matematik) oziroma Alexander Wilson (ornitolog).

Datuma rojstva in smrti[uredi | uredi kodo]

Pri vnašanju datumov rojstva in smrti upoštevajte navodila v slogovnem priročniku in ne ustvarjajte povezav na druge članke v Wikipediji.

Posebno pomembno je, da ne uporabljate kakršnih koli predlog v teh dveh poljih, saj bi lahko onemogočale izvlek podatkov. Rojstni dan Abrahama Lincolna bi torej zapisali kot 12. februar 1809 in ne kot {{birth date|1809|2|12|mf=y}}.

Kraj rojstva in smrti[uredi | uredi kodo]

Bodite natančni, vendar ne tako zelo, da navedete še ulico in hišno številko. Pogosto uporabljene oblike so mesto/kraj, zvezna država/provinca, država; ali mesto/kraj, država; ali zvezna država/provinca, država itd. Če želite, lahko ustvarite povezave na druge članke ali sami ustvarite nove preusmeritve, vendar bodite jedrnati. Povezavo za »Los Angeles, Kalifornija« ni treba na primer razdeliti na dva dela: »[[Los Angeles, Kalifornija|Los Angeles]], [[Kalifornija]]« (kar se prikaže kot »Los Angeles, Kalifornija«), saj je na voljo članek »[[Los Angeles, Kalifornija]]« (»Los Angeles, Kalifornija«). Če pa takšna jedrnata preusmeritev ne obstaja, jo lahko seveda ustvarite.

Primeri[uredi | uredi kodo]

Polje Primeri
IME

Magellan, Ferdinand
Cankar, Ivan
Beethoven, Ludwig van
Van Zandt, Townes
Pipin Mali
King, Martin Luther, mlajši
Wainwright, Loudon, III
Janez Pavel II, papež
Elizabeta II
Janez Krstnik
Frančišek Asiški, sveti
Tokugawa, Ieyasu
Fujiwara no Michinaga

DRUGA IMENA

Magalhães, Fernão de (portugalsko); Magallanes, Fernando de (špansko)
Kuhar, Lovro (pravo ime)

KRATEK OPIS

pomorščak
nemški filozof
postmodernistični pisatelj
3. predsednik Slovenije

DATUM ROJSTVA

1480
25. oktober 1806
okrog 470 pr. n. št.

KRAJ ROJSTVA

Bergen, Norveška
Teksas, Združene države Amerike
Perth, Zahodna Avstralija

DATUM SMRTI

27. april 1521
januar 1945
1421

KRAJ SMRTI

Hirošima, Honšu, Japonska
Kingston, Jamajka
Kranj

Izvlek osebnih podatkov[uredi | uredi kodo]

S projektom Templatetiger[uredi | uredi kodo]

S projektom Templatetiger si je mogoče ogledati in natisniti podatke:

Iz podatkovne baze SQL[uredi | uredi kodo]

Z uporabo poizvedbe SQL lahko osebne podatke filtrirate iz člankov v Wikipediji in jih shranite v podatkovno bazo. Spodaj je prikazan primer uporabe poizvedbe SQL, s katero se lahko izvleče osebne podatke

SELECT
   pages.cur_namespace,
   pages.cur_title,
   SUBSTRING(SUBSTRING(pages.cur_text FROM INSTR(pages.cur_text,'{{Persondata')), 1,
      INSTR(SUBSTRING(pages.cur_text FROM INSTR(pages.cur_text,'{{Persondata')),'}}')+1)
      AS 'Persondata'
FROM cur AS pd
JOIN templatelinks AS tl
   ON pd.cur_namespace = tl.tl_namespace
   AND pd.cur_title = tl.tl_title
JOIN cur AS pages
   ON tl.tl_from = pages.cur_id
   AND pages.cur_namespace = 0
WHERE pd.cur_namespace = 10
AND pd.cur_title = 'Persondata'

Osebne podatke je potrebno razdeliti na posamezna podatkovna polja, šele nato bodo uporabni.

Iz posnetka XML[uredi | uredi kodo]

Osebne podatke lahko izvlečete tudi iz navadnih posnetkov podatkovnih baz iz Wikipedije. Naslednji postopek je povzet po skriptih iz nemške Wikipedije uporabnika de:Uporabnik:JakobVoss (ki uporablja tudi ime Nichtich). Podrobnejši opis najdete na strani de:Hilfe:Personendaten/Datenextraktion (v nemščini). Postopek je razdeljen na štiri korake: prenos posnetka podatkovne baze, izvlek in razčlenjevanje osebnih podatkov in po želji še nalaganje v podatkovno bazo MySQL. (To je primer postopka izvleka, transformacije in nalaganja podatkov (ETL – extract, transform, load).) Prenos posnetka podatkovne baze lahko traja nekaj ur s hitro internetno povezavo, izvlek podatkov približno eno uro, razčlenjevanje in nalaganje v podatkovno bazo MySQL pa nekaj sekund.

Sistemske zahteve[uredi | uredi kodo]

Originalni skripti so bili zapisani za Linux, vendar jih lahko zaženete tudi v operacijskem sistemu Windows z uporabo emulatorja Linuxa (npr. Cygwin) ali različic potrebne programske opreme za Windows:

Če boste želeli naložiti izvlečene osebne podatke v podatkovno bazo MySQL, boste potrebovali sistem za upravljanje podatkovnih baz MySQL (prenesite tukaj).

Prenos posnetka podatkovne baze[uredi | uredi kodo]

Posnetke podatkovnih baz najdete na strani http://download.wikimedia.org/enwiki. Podimeniki so imenovani po datumu posnetka. Datoteka, ki jo potrebujete za izvlek osebnih podatkov, se imenuje enwiki-datum-pages-articles.xml.bz2, npr. enwiki-20090512-pages-articles.xml.bz2. Najnovejšo različico te datoteke lahko vedno najdete na strani http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2. Junija 2009 je datoteka znašala 4,9 GB. Pri prenosu datoteke vam bo morda v pomoč program Wget.

Izvlek osebnih podatkov[uredi | uredi kodo]

Datoteke, ki jih potrebujete:

Bzip2 se uporablja za razširjanje posnetka, izložek je posredovan trem povezanim skriptom STX za izvlek informacij iz predlog za osebne podatke. STX je implementiran v arhiv java joost.jar.

Skladnja za klicanje teh skriptov je:

bzip2 -dc enwiki-20090512-pages-articles.xml.bz2 | java -jar joost.jar - addNamespaces.stx extractPersondata.stx pd2tab.stx > 20090512-extract.tab

To lahko vnesete v ukazni kazalki v OS Linux ali Windows (Start -> Zaženi -> cmd). V OS Windows lahko zgornji niz zapišete tudi v besedilni datoteki s končnico .bat (npr. izvlecek.bat), ki jo nato zaženete z dvojnim klikom. Če bzip2 ne bo v istem imeniku kot posnetek podatkovne baze, boste morali določiti celotno datotečno pot (npr. C:\celotna\datotečna\pot\bzip2.exe).

Pri tem postopku se izpiše tekoča vsota vseh člankov z osebnimi podatki. Izpiše se tudi tekoča vsota vseh člankov s predlogo PND. Slednje je zapuščina starih nemških skriptov – pri prilagajanju le-teh je bilo preprostejše ohraniti predlogo. (Vsem nemško govorečim avtorjem je dodana številka Personennamendatei number. Uporablja se jo lahko za povezavo na katalog Nemške narodne knjižnice. Približno 3000 člankov v nemški Wikipediji uporablja to predlogo.)

Izložek pri tem koraku je datoteka, ločena s tabulatorji (v zgornjem primeru je to 20090512-extract.tab), ki vsebuje informacije iz predloge Osebni podatki.

Razčlenjevanje osebnih podatkov[uredi | uredi kodo]

Potrebna datoteka:

Informacije, vnesene v polja predloge Osebni podatki, lahko zapišemo v različnih oblikah. To velja predvsem za datume. Za mnoge aplikacije je uporabno, če so te informacije v standardizirani obliki. Skript Perl transform.pl vzame datoteko XXXX-extract.tab iz prejšnjega koraka in razčleni polja, da pridobi vrednosti, kot so dan, mesec, leto, desetletje in stoletje, za datume, imena in priimke oseb, ki so zapisana v obliki Novak, Janez, in imena člankov, pri katerih je na prvem mestu v polju za kraj rojstva/smrti wikipovezava, itd.

Skladnja za ta korak je

transform.pl 20090512-extract.tab > 20090512-full.tab

To ustvari novo datoteko, ločeno s tabulatorji. Po želji se lahko datoteko naloži v preglednico in pridobi določene osnovne informacije, tako da se razporedi stolpce ali išče z ustreznimi izrazi. Vendar je za zahtevnejše analize primernejša uporaba podatkovne baze.

Nalaganje osebnih podatkov v podatkovno bazo[uredi | uredi kodo]

Potrebna datoteka:

Če imate nameščen MySQL, lahko zaženete datoteko tabela.sql in ustvarite tabelo z imenom pub_pd_sl ter naložite podatke iz datoteke XXXX-full.tab. (Na koncu datoteke tabela.sql morate spremeniti datum v imenu datoteke.)

Skladnja za zagon tega znotraj MySQL je

source C:/celotna/datotečna/pot/tabela.sql;

Skripti Linux[uredi | uredi kodo]

Pri prvotni implementaciji v nemško Wikipedijo je celoten postopek – od izvleka podatkov do nalaganja v podatkovno bazo – izvedel en sam lupinski skript, etl, ki je po vrsti klical skripte extract.pl, transform.pl in load.pl. Če želite uporabite slednje, jih najdete na naslovu http://toolserver.org/~voj/pd/staging-area/. Poleg prilagojenih datotek, omenjenih v prejšnjih korakih, so potrebne manjše spremembe datotek extract.pl in load.pl, če jih želite uporabiti za slovenščino, npr. de zamenjate s sl in extractPersonendaten z izvlekOsebnihPodatkov ali uporabiti svoje uporabniško ime v datoteki load.pl. Prilagojeno različico datoteke transform.pl, ki je podana v zgornjem razdelku Razčlenjevanje osebnih podatkov, je seveda tudi treba uporabiti.

Datoteke:

Glej tudi[uredi | uredi kodo]

  • Template in primer example v semantičnem MediaWikiju (SMW); upoštevajte, da je v SMW celotno podatkovno polje ena povezava (relacija), ali pa podatkovno polje sploh nima povezave (atribut).
  • hCard - mikroformat s podobnimi značilnostmi a microformat with similar properties.


Kategorija:Predloge pripomočki|Karolina~slwiki/Wikipedija:Osebni podatki Kategorija:Wikipedija