Next Previous Contents

2. Kodoj

Ekzistas tri internaciaj normoj por signokodoj, kiuj enhavas la esperantajn signojn, la du kutime uzataj estas ISO-8859-3 (Latin-3) kaj Unikodo (Unicode). La unua normo estas por okbitaj signoj kaj la dua por deksesbitaj. Por povi transporti unikodajxojn tra okbitaj kaj sepbitaj medioj ekzistas la kodoj UTF-8 kaj UTF-7.

Cxar Unikodo samtempe difinas koderojn por la signoj de cxiuj lingvoj de la mondo, gxi ricevas pli kaj pli da subteno de programarproduktantoj.

Alie ol ekz. Vindozo NT, Linukso interne uzas okbitajn kodojn. Subteno de Unikodo precipe estas en sistemkomponentoj, kiuj zorgas pri eligado de tekstoj sur la ekrano aux kiuj rilatas al intersxangxo de informoj kun la ekstera mondo. Do estas iom da Unikodo en la konzolo, iom da en X-fenestroj, iom da en la traktado de informoj venantaj per retposxto aux el TTT kaj iom da rilate al dosiersistemoj de KKDoj (Joliet-dosiersistemo). Ofte tiuj komponentoj uzas la okbitan unikodformon UTF-8.

Cxar la subteno de Unikodo en Linukso estas iom malkohera, gxenerale oni preferas ISO-8859-3. Sed supozeble la premisoj sxangxigxos gxis la fino de 1999.

Ampleksajn informojn pri la unuopaj kodoj kun E-signoj en internaciaj normoj kaj en specialaj programoj, vi trovas cxe Edmundo.

Foje vi bezonas la eblecon konverti esperantajn tekstojn de UTF-8 al Latin-3. Por tio vi povas uzi la sekvan Perl-programeton.

  #!/usr/bin/perl
  while (<>) {
    s/\304\210/\306/g;
    s/\304\211/\346/g;
    s/\304\234/\330/g;
    s/\304\235/\370/g;
    s/\304\244/\246/g;
    s/\304\245/\266/g;
    s/\304\264/\254/g;
    s/\304\265/\274/g;
    s/\305\234/\336/g;
    s/\305\235/\376/g;
    s/\305\254/\335/g;
    s/\305\255/\375/g;
    print;
  };
Por konverti en la alia direkto, intersxangxu la du kolumnojn inter /../../.

Por presi Latin-3ajn tekstojn vi povas uzi solvon de Albert Reiner. Temas pri simpla programeto en Perl uzanta TeX-on por la presado.

Pro kompleteco tie cxi ni donas ankoraux la koderojn de la E-signoj laux la plej vastigxintaj normoj. UTF-8, kiu kodas unikodajn signojn per okbitaj koderoj, estas ekzemple uzata en HTML-pagxoj.

2.1 koderoj deksesume

  litero  Latin-3 Unikodo UTF-8
  -----------------------------
  Cx      C6      0108    C4 88
  cx      E6      0109    C4 89
  Gx      D8      011C    C4 9C
  gx      F8      011D    C4 9D
  Hx      A6      0124    C4 A4
  hx      B6      0125    C4 A5
  Jx      AC      0134    C4 B4
  jx      BC      0135    C4 B5
  Sx      DE      015C    C5 9C
  sx      FE      015D    C5 9D
  Ux      DD      016C    C5 AC
  ux      FD      016D    C5 AD

2.2 koderoj dekume

  litero  Latin-3 Unikodo UTF-8
  -------------------------------
  Cx      198     0264    196 136
  cx      230     0265    196 137
  Gx      216     0284    196 156
  gx      248     0285    196 157
  Hx      166     0292    196 164
  hx      182     0293    196 165
  Jx      172     0308    196 180
  jx      188     0309    196 181
  Sx      222     0348    197 156
  sx      254     0349    197 157
  Ux      221     0364    197 172
  ux      253     0365    197 173

2.3 koderoj okume

  litero  Latin-3 Unikodo UTF-8
  -------------------------------
  Cx      306     0410    304 210
  cx      346     0411    304 211
  Gx      330     0434    304 234
  gx      370     0435    304 235
  Hx      246     0444    304 244
  hx      266     0445    304 245
  Jx      254     0464    304 264
  jx      274     0465    304 265
  Sx      336     0534    305 234
  sx      376     0535    305 235
  Ux      335     0554    305 254
  ux      375     0555    305 255


Next Previous Contents

Hosting by: Hurra Communications Ltd.
Generated: 2007-01-26 17:58:06