[JÄRGMINE] Ühebaidised märgistikud
[EELMINE] Sissejuhatus
[SISUKORD]
[ENGLISH]


2 MÄÄRATLUSED JA LÜHENDID

ASCII (American National Standard Code for Information Interchange). Ameerika riiklik 7- bitiste märgikoodide standard, kasutamiseks infovahetusel, andmetöötluses ning sidesüsteemides. ASCII kooditabel sisaldab juhtmärke ja graafilisi märke. Eesti aluskooditabeli (tabel 3.1) vasak pool langeb kokku ASCII kooditabeliga.
AW-kaal (Alphanumerical Weight). Tähtedele ja numbritele omistatav kaal, mis on täpsetes sortimisalgoritmides aluseks tekstide võrdlemisel. Suur- ja väiketähtede kaalud on esimeses lähenduses võrdsed.
AZERTY klaviatuur. Klaviatuur (sõrmistik), mille teine rida (D-rida) sisaldab vasakult paremale tähti A, Z, E, R, T, Y, U, I, O, P. Klaviatuuri kasutatakse prantsuse kultuurikeskkonnas.
Bait (byte). Märki esindav järjestatud bitijada 8 bitist (kahendnumbrist). Kaheksakohalise kahendarvu asemel kasutatakse ka vastavat kümnend- või kuueteistkümnendarvu. Näiteks märgile "Ü" vastav bitijada põhitabelis on "11011100", kümnendarv "220", kuueteistkümnendarv "DC".
CGCSGID (Coded Graphic Character Set Global Identifier) number. Number saadakse GCSGID ja CPGID sidumisel. Näiteks 00697 00850 (ka 697 850).
CPGID (Code Page Global Identifier) number. IBM käsiraamatus "National Language Support Reference Manual. Volume 2" registreeritud kooditabelile omistatud number. Eesti kooditabelid põhinevad järgmistel kooditabelitel: IBM CP 819 (alustabel), IBM CP 850 (mikroarvutite tabel), IBM CP 437 (mikroarvutites vaikimisi realiseeritud tabel), IBM CP 278 (EBCDIC tabel).
CW-kaal (Case Weight). Märgiregistrile omistatav kaal. Eristatakse suur- ja väiketähtede, indeksite jt registreid. CW-kaale kasutatakse tekstide täppisjärjestamisel.
Diakriitiline märk, diakriitik (diacritics). Lisamärk tähe koostises, näiteks täpid.
DW-kaal (Diacritic Weight). Kaal, mida kasutatakse diakriitikat sisaldavate tekstide täppisjärjestamisel.
EBCDIC (Extended Binary Coded Decimal Interchange Code). IBM suurarvutites kasutatavate kooditabelite pere. Eesti EBCDIC kooditabel baseerub IBM CP 278 tabelil.
Erimärk (special character). Graafiline märk, mis ei ole täht, number ega tühik. GCGID tähistuses erimärkide identifikaatorid algavad tähega "S". Näiteks märgi "%" GCGID on SM020000.
GCGID voi GCID (Graphic Character Global Identifier) identifikaator. GCGID määratleb üheselt mistahes märgi. Ta koosneb kahest tähest ja kuuest kümnendnumbrist (identifikaatori lõpus olevad nullid jäetakse tavaliselt kirjutamata). Näide: tähe "a" GCID number on "LA010000" või lihtsalt "LA01".
GCSGID (Graphic Character Set Global Identifier) identifikaator. IBM käsiraamatus "National Language Support Reference Manual. Volume 2" registreeritud märgistiku identifikaator.
Graafiline märk, kirjamärk. Erinevalt juhtmärgist omab graafiline märk visuaalset kuju, teda võib kirjutada käsitsi, trükkida, või kuvada ekraanile. Igal graafilisel märgil on kood.
ISO (International Organization for Standardization). Rahvusvaheline Standardiorganisatsioon.
Juhtmärk. Märk, mis toimib tegevuse (reavahetuse, sõnumi lõpu jne) käsuna ning millel ei ole iseseisvat graafilist kuju. Käesolevas standardis ei sätestata juhtmärke. Nende kasutamine peab toimuma täpses vastavuses rahvusvaheliste standarditega, mille järgi on juhtmärkide jaoks reserveeritud veerud 0,1,8 ja 9.
Keele kiht klaviatuuril (language layer). Klaviatuuril võib olla mitu keele kihti (näiteks eesti ja vene keele kiht). Igal keele kihil on kuni kolm registrit (alumine register, ülemine register, lisaregister).
Kodeeritud märgistik (coded character set). Märke ja neid esindavaid koode üheselt määratlev reeglistik.
Kood. Märgile omistatud ühebaidine väärtus. Märkide ja koodide vahel on igas konkreetses märgistikus üksühene vastavus.
Kooditabel. Kodeeritud märgistiku esitus tabeli kujul. Kooditabelis on 256 positsiooni: 16 rida ja 16 veergu. Read ja veerud nummerdatakse kuueteistkümnendarvudega: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F. Märgi kuueteistkümnendkoodis xy number x näitab veeru numbrit ja y rea numbrit.
LATIN-1 (Latin alphabet #1). Lääne-Euroopas, Põhja-, Kesk- ja Lõuna-Ameerikas kasutatav 190 märgist koosnev märgistik. Märgistiku registreerimisnumber IBM käsiraamatus "National Language Support Reference Manual. Volume 2" on IBM CP 697. LATIN-1 on vormistatud standardina ISO 8859-1.
Ligatuur (ligature). Liitmärk, kahe märgi ühend, näiteks "Æ".
Märgistik (character set). Terviklik märkide kogum. Ühte märgistikku võib kodeerida mitmel moel. Eesti põhimärgistikule lähim registreeritud märgistik on 190 märgist koosnev märgistik GCSGID numbriga 00697. See märgistik on esitatud kodeerituna kahel moel: nn EBCDIC kooditabeliga IBM CP 278 ja nn LATIN-1 kooditabeliga IBM CP 819.
Märk (character). Märgistiku element, mida kasutatakse andmete esitamiseks või korraldamiseks ning andmevoo juhtimiseks.
Notatsioon. Teatav koodikombinatsiooni kirjeldusviis. Tähistame 8-bitise koodi bitte b8, b7, b6, b5, b4, b3, b2, b1, kus b8 vastab kõrgeimale ja b1 madalaimale bitile. Märki esindava bitikombinatsiooni esitame kahe kuueteistkümnendnumbrina - xy, kus number x vastab bitikombinatsioonile b8b7b6b5 ja y bitikombinatsioonile b4b3b2b1.
Positsioon. Kooditabeli osa, mida identifitseeritakse tabeli rea ja veeru koordinaatidega.
POSIX (Portable Operating System). Standardne mobiilne operatsioonisüsteem ja tema keskkond. POSIXit võib vaadelda kui standardiseeritud UNIXit.
QWERTY klaviatuur. Klaviatuur, mille teine rida (D-rida) vasakult paremale sisaldab tähti Q, W, E, R, T, Y, U, I, O, P. See klaviatuur domineerib ladina tähestikuga kultuurides (välja arvatud prantsuse kultuur). Käesolevas standardis esitatud eesti klaviatuur on QWERTY klaviatuuri üks variante.
QWERTZ klaviatuur. Klaviatuur, mille teine rida (D-rida) vasakult paremale sisaldab tähti Q, W, E, R, T, Z, U, I, O, P. Seda klaviatuuri kasutati saksa kultuuris.
Register. Klaviatuuri mistahes klahvivajutusega võib ühe keelekihi piires genereerida kuni kolm eri märki, vastavalt sellele, kas klaviatuur on alumise, ülemise voi lisaregistri reziimis.
Sammuta (tumm) märk (nonescaping/dead key). Sõrmis klaviatuuril, millele vajutamisel ei muutu kursori positsioon. Sammuta märki saab kasutada diakriitikuga märkide genereerimiseks.
SH-kaal, jaoskaal (Shared Weight). Kooditabeli märgid jaotatakse ekvivalentsiklassideks. Ühe klassi märkidel on sama SH- kaal. Näiteks on eesti kultuurikeskkonnas käesoleva standardi kohaselt tähtede i, I, í, Í, ì, Ì, î, Î, ï ja Ï SH-kaal 78.
Sortimisvõti (sort key). Märgijadade sortimisvahend. Sortimiseks moodustatakse tekstist kaalude jadad. Esimeseks jadaks on tekstivõtme puhul nn AW-kaaludest koosnev jada, järgmine jada saadakse DW-kaaludest (diakriitikut iseloomustav kaal) jne. Tekstide järjestuse määrab neile vastavate sortimisvõtmete võrdlus.
Suurtähelukk (capslock, capitals lock). Klaviatuuri sõrmise funktsioon, mis lülitab klaviatuuridraiveri suurtähereziimi, kuid ei mõju numbrite ja muude märkidega sõrmistele. Suurtähelukk on registersõrmis: temale vajutades lülitatakse vastav funktsioon sisse või välja.
SW-kaal (Special Weight). Erimärkidele omistatav kaal. Kasutatakse täppissortimisalgoritmides.

[JÄRGMINE] Ühebaidised märgistikud
[EELMINE] Sissejuhatus
[SISUKORD]