[JÄRGMINE] Ühebaidised märgistikud
[EELMINE] Sissejuhatus
[SISUKORD]
[ENGLISH]
2 MÄÄRATLUSED JA LÜHENDID
- ASCII (American National Standard Code for Information
Interchange). Ameerika riiklik 7- bitiste märgikoodide
standard, kasutamiseks infovahetusel, andmetöötluses ning
sidesüsteemides. ASCII kooditabel sisaldab juhtmärke ja
graafilisi märke. Eesti aluskooditabeli (tabel 3.1) vasak pool langeb kokku ASCII
kooditabeliga.
- AW-kaal (Alphanumerical Weight). Tähtedele ja
numbritele omistatav kaal, mis on täpsetes sortimisalgoritmides
aluseks tekstide võrdlemisel. Suur- ja väiketähtede
kaalud on esimeses lähenduses võrdsed.
- AZERTY klaviatuur. Klaviatuur (sõrmistik), mille
teine rida (D-rida) sisaldab vasakult paremale tähti A, Z, E, R, T,
Y, U, I, O, P. Klaviatuuri kasutatakse prantsuse kultuurikeskkonnas.
- Bait (byte). Märki esindav järjestatud bitijada
8 bitist (kahendnumbrist). Kaheksakohalise kahendarvu asemel kasutatakse
ka vastavat kümnend- või kuueteistkümnendarvu.
Näiteks märgile "Ü" vastav bitijada
põhitabelis on "11011100", kümnendarv
"220", kuueteistkümnendarv "DC".
- CGCSGID (Coded Graphic Character Set Global Identifier)
number. Number saadakse GCSGID ja CPGID sidumisel. Näiteks
00697 00850 (ka 697 850).
- CPGID (Code Page Global Identifier) number. IBM
käsiraamatus "National Language Support Reference Manual.
Volume 2" registreeritud kooditabelile omistatud number. Eesti
kooditabelid põhinevad järgmistel kooditabelitel: IBM CP 819
(alustabel), IBM CP 850 (mikroarvutite tabel), IBM CP 437 (mikroarvutites
vaikimisi realiseeritud tabel), IBM CP 278 (EBCDIC tabel).
- CW-kaal (Case Weight). Märgiregistrile omistatav
kaal. Eristatakse suur- ja väiketähtede, indeksite jt
registreid. CW-kaale kasutatakse tekstide
täppisjärjestamisel.
- Diakriitiline märk, diakriitik (diacritics).
Lisamärk tähe koostises, näiteks täpid.
- DW-kaal (Diacritic Weight). Kaal, mida kasutatakse
diakriitikat sisaldavate tekstide täppisjärjestamisel.
- EBCDIC (Extended Binary Coded Decimal Interchange Code).
IBM suurarvutites kasutatavate kooditabelite pere. Eesti EBCDIC kooditabel
baseerub IBM CP 278 tabelil.
- Erimärk (special character). Graafiline märk,
mis ei ole täht, number ega tühik. GCGID tähistuses
erimärkide identifikaatorid algavad tähega "S".
Näiteks märgi "%" GCGID on SM020000.
- GCGID voi GCID (Graphic Character Global Identifier)
identifikaator. GCGID määratleb üheselt mistahes
märgi. Ta koosneb kahest tähest ja kuuest kümnendnumbrist
(identifikaatori lõpus olevad nullid jäetakse tavaliselt
kirjutamata). Näide: tähe "a" GCID number on
"LA010000" või lihtsalt "LA01".
- GCSGID (Graphic Character Set Global Identifier)
identifikaator. IBM käsiraamatus "National
Language Support Reference Manual. Volume 2" registreeritud
märgistiku identifikaator.
- Graafiline märk, kirjamärk. Erinevalt
juhtmärgist omab graafiline märk visuaalset kuju, teda
võib kirjutada käsitsi, trükkida, või kuvada
ekraanile. Igal graafilisel märgil on kood.
- ISO (International Organization for Standardization).
Rahvusvaheline Standardiorganisatsioon.
- Juhtmärk. Märk, mis toimib tegevuse
(reavahetuse, sõnumi lõpu jne) käsuna ning millel ei
ole iseseisvat graafilist kuju. Käesolevas standardis ei
sätestata juhtmärke. Nende kasutamine peab toimuma täpses
vastavuses rahvusvaheliste standarditega, mille järgi on
juhtmärkide jaoks reserveeritud veerud 0,1,8 ja 9.
- Keele kiht klaviatuuril (language layer). Klaviatuuril
võib olla mitu keele kihti (näiteks eesti ja vene keele kiht).
Igal keele kihil on kuni kolm registrit (alumine register, ülemine
register, lisaregister).
- Kodeeritud märgistik (coded character set).
Märke ja neid esindavaid koode üheselt määratlev
reeglistik.
- Kood. Märgile omistatud ühebaidine
väärtus. Märkide ja koodide vahel on igas konkreetses
märgistikus üksühene vastavus.
- Kooditabel. Kodeeritud märgistiku esitus tabeli
kujul. Kooditabelis on 256 positsiooni: 16 rida ja 16 veergu. Read ja
veerud nummerdatakse kuueteistkümnendarvudega: 0, 1, 2, 3, 4, 5, 6,
7, 8, 9, A, B, C, D, E, F. Märgi kuueteistkümnendkoodis xy
number x näitab veeru numbrit ja y rea numbrit.
- LATIN-1 (Latin alphabet #1). Lääne-Euroopas,
Põhja-, Kesk- ja Lõuna-Ameerikas kasutatav 190 märgist
koosnev märgistik. Märgistiku registreerimisnumber IBM
käsiraamatus "National Language Support Reference Manual.
Volume 2" on IBM CP 697. LATIN-1 on vormistatud standardina
ISO 8859-1.
- Ligatuur (ligature). Liitmärk, kahe märgi
ühend, näiteks "Æ".
- Märgistik (character set). Terviklik märkide
kogum. Ühte märgistikku võib kodeerida mitmel moel. Eesti
põhimärgistikule lähim registreeritud märgistik on
190 märgist koosnev märgistik GCSGID numbriga 00697. See
märgistik on esitatud kodeerituna kahel moel: nn EBCDIC kooditabeliga
IBM CP 278 ja nn LATIN-1 kooditabeliga IBM CP 819.
- Märk (character). Märgistiku element, mida
kasutatakse andmete esitamiseks või korraldamiseks ning andmevoo
juhtimiseks.
- Notatsioon. Teatav koodikombinatsiooni kirjeldusviis.
Tähistame 8-bitise koodi bitte b8, b7, b6, b5, b4, b3, b2, b1, kus b8
vastab kõrgeimale ja b1 madalaimale bitile. Märki esindava
bitikombinatsiooni esitame kahe kuueteistkümnendnumbrina - xy, kus
number x vastab bitikombinatsioonile b8b7b6b5 ja y bitikombinatsioonile
b4b3b2b1.
- Positsioon. Kooditabeli osa, mida identifitseeritakse
tabeli rea ja veeru koordinaatidega.
- POSIX (Portable Operating System). Standardne mobiilne
operatsioonisüsteem ja tema keskkond. POSIXit võib vaadelda
kui standardiseeritud UNIXit.
- QWERTY klaviatuur. Klaviatuur, mille teine rida (D-rida)
vasakult paremale sisaldab tähti Q, W, E, R, T, Y, U, I, O, P. See
klaviatuur domineerib ladina tähestikuga kultuurides (välja
arvatud prantsuse kultuur). Käesolevas standardis esitatud eesti
klaviatuur on QWERTY klaviatuuri üks variante.
- QWERTZ klaviatuur. Klaviatuur, mille teine rida (D-rida)
vasakult paremale sisaldab tähti Q, W, E, R, T, Z, U, I, O, P. Seda
klaviatuuri kasutati saksa kultuuris.
- Register. Klaviatuuri mistahes klahvivajutusega
võib ühe keelekihi piires genereerida kuni kolm eri
märki, vastavalt sellele, kas klaviatuur on alumise, ülemise voi
lisaregistri reziimis.
- Sammuta (tumm) märk (nonescaping/dead key).
Sõrmis klaviatuuril, millele vajutamisel ei muutu kursori
positsioon. Sammuta märki saab kasutada diakriitikuga märkide
genereerimiseks.
- SH-kaal, jaoskaal (Shared Weight). Kooditabeli
märgid jaotatakse ekvivalentsiklassideks. Ühe klassi
märkidel on sama SH- kaal. Näiteks on eesti kultuurikeskkonnas
käesoleva standardi kohaselt tähtede i, I, í, Í,
ì, Ì, î, Î, ï ja Ï SH-kaal 78.
- Sortimisvõti (sort key). Märgijadade
sortimisvahend. Sortimiseks moodustatakse tekstist kaalude jadad.
Esimeseks jadaks on tekstivõtme puhul nn AW-kaaludest koosnev jada,
järgmine jada saadakse DW-kaaludest (diakriitikut iseloomustav kaal)
jne. Tekstide järjestuse määrab neile vastavate
sortimisvõtmete võrdlus.
- Suurtähelukk (capslock, capitals lock).
Klaviatuuri sõrmise funktsioon, mis lülitab
klaviatuuridraiveri suurtähereziimi, kuid ei mõju numbrite ja
muude märkidega sõrmistele. Suurtähelukk on
registersõrmis: temale vajutades lülitatakse vastav funktsioon
sisse või välja.
- SW-kaal (Special Weight). Erimärkidele omistatav
kaal. Kasutatakse täppissortimisalgoritmides.
[JÄRGMINE] Ühebaidised märgistikud
[EELMINE] Sissejuhatus
[SISUKORD]