Kodiranje šumnikov

Iz Wikipedije, proste enciklopedije
(Preusmerjeno s strani Kodiranje ČŠŽ)

Znakov Č, Š in Ž (ter ostalih) ni v angleški abecedi, zato so (bile) s kodiranjem teh znakov v računalništvu precejšnje težave.

Kodni nabori[uredi | uredi kodo]

Spodaj so najbolj znani kodni nabori in desetiške kode znakov (za Unicode so vrednosti šestnajstiške).

Standard JUS I.B1.002     ISO 8859-2 ISO 10646
Vrsta kodiranja YUSCII CP852 CP1250 Latin2 Unicode
Č 94 172 200 200 U+010C
č 126 159 232 232 U+010D
Š 91 230 138 169 U+0160
š 123 231 154 185 U+0161
Ž 64 166 142 174 U+017D
ž 96 167 158 190 U+017E

Zasilne rešitve[uredi | uredi kodo]

Kot zasilna rešitev se včasih pojavijo zamenjave za besedo križišče na različne načine:

  • slog CSZ: krizisce,
  • slog TeX: kri"zi"s"ce ali kri \v zi \v s\v ce,
  • teleks slog: krizzisscce,
  • slog zvezdica: kriz*is*c*e.

Urejanje HTML[uredi | uredi kodo]

Pri urejanju HTML v glavo dokumenta dodamo eno od spodnjih vrstic:

  • <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
  • <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-2" />
  • <meta http-equiv="Content-Type" content="text/html; charset=windows-1250" />

Seveda glede na to, v katerem kodnem naboru pišemo dokument. Priporočeni kodni nabor je UTF-8 (Unicode), Predvsem uporabniki operacijskega sistema Windows pa imajo navadno z Unicodom včasih težave in raje uporabljajo kodni nabor windows-1250.

Ko UTF-8 še ni bil tako razširjen, ko so se težave s šumniki še vrstile vsevprek, ali če se danes še kje najde dokument, zapisan v kodnem naboru, ki ne podpira slovenskih znakov, jih je mogoče zapisati tudi v obliki &#xxx; (kjer je xxx desetiška koda znaka):

  • Č &#268;
  • č &#269;
  • Š &#352;
  • š &#353;
  • Ž &#381;
  • ž &#382;

Šumniki v TeX-u[uredi | uredi kodo]

Šumniki »nekoč«[uredi | uredi kodo]

TeX je bil šumnikom kos že od začetka osemdesetih let dvajsetega stoletja, čeprav se je mnogo ostalih računalniških programov spopadalo z njimi še dolgo potem. Pisava Computer Modern Roman (cmr), ki jo je TeX uporabljal, šumnikov ni imela, vendar je znal program postaviti katerikoli akcent na katerokoli črko. Šumnike je tako mogoče dobiti z:

\v{c}\v{s}\v{z} \v{C}\v{S}\v{Z}

Z dodatnim makro paketkom je bila pisava za silo poenostavljena:

"c"s"z "C"S"Z

Mnogo ljudi še vedno uporablja ta zapis, čeprav danes ni skoraj nobenega dobrega razloga več, da ne bi v zapisu uporabljali pravih šumnikov in tako tudi črkovalniku omogočil, da opravi svoje delo.

Kodiranje pisave[uredi | uredi kodo]

TeX zna deliti besede in skrbeti za pravilen razmak med znaki (angl. kerning), vendar nič od tega ne deluje, če v besedi nastopajo črke, ki jih ni v pisavi in jih mora TeX umetno sestaviti (npr. iz strešice in C-ja, da dobi Č).

Medtem ko vnos znakov v Unicode-u s pravimi makri danes ni več problem, zna TeX še vedno delati samo s pisavami z največ 256-imi znaki (izjeme so nekatere nove izpeljanke: Omega, Aleph, NTS, exTeX, XeTeX in LuaTeX). Edini standardni nabor, ki vsebuje vse slovenske znake, je EC (ali CORK, v LaTeX-u nosi ime T1). Če želimo pisati slovenske dokumente, ga zato moramo uporabiti:

\usepackage[slovene]{babel} % slovenske nastavitve (naslovi, deljenje besed ...)
\usepackage[T1]{fontenc}    % font encoding; T1 podpira slovenščino

Danes standardno pisavo Computer Modern Roman zamenjuje Latin Modern Roman, ki vsebuje večino latinskih znakov z akcenti, vendar je TeX še vedno omejen na 256 znakov.

Šumniki danes[uredi | uredi kodo]

V LaTeX-u pišemo šumnike tako, da v glavo dokumenta dodamo:

\usepackage[utf8]{inputenc} % input encoding; lahko je tudi [cp1250] ali [latin2]

in pišemo šumnike kot v vsakem drugem dokumentu, brez nepotrebnih " oz. \v{}. V ConTeXt-u je enakovreden ukaz:

\enableregime[utf]

Primer rabe šumnikov v LaTeX-u:

\documentclass{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\begin{document}
Pešec gre čez cestišče.
\end{document}

Viri[uredi | uredi kodo]

Glej tudi[uredi | uredi kodo]