Proč Unicode na internetu nefunguje: jazyková, politická a technická omezení

Original page: http://www.hastingsresearch.com/net/04-unicode-limitations.shtml

Autor: Norman Goundry

Editoval Nicholas Carroll

Datum: 4. června 2001
Upraveno: nepoužije se

Souhrn

Unicode, semi-komerční ekvivalent UCS-2 (ISO 10646-1), byl široce považován za komplexní řešení pro elektronické mapování všech znaků světových jazyků, což je 16bitová definice znaků umožňující teoretický součet více než 65 000 znaků. Kompletní znakové sady světa však obsahují více než 170 000 znaků. Tento dokument shrnuje politické nepokoje a technické nekompatibility, které se začínají projevovat na internetu v důsledku tohoto dohledu. (Pro technicky náročnější: Unicode 3.1 nebude fungovat.)

Poznámka editora: V čínštině se používají romanizace Wade-Giles a Pinyin, podle toho, které slovo je pro dané slovo lépe známé. Pozadí na orientálních jazycích a politice jsou poměrně důkladné; čtenáři, kteří se zabývají okamžitými technickými důsledky článku, si mohou přát přeskočit přímo na „Neschopnost Unicode plně oslovit orientální postavy“.

down arrowPozadí na orientální jazyky a postavy
down arrowDopad západní technologie na Orient
down arrowNeschopnost Unicode plně oslovit orientální postavy
down arrowProč Unicode 3.1 problém nevyřeší
down arrowPolitický význam tohoto vyjádření v západních podmínkách
down arrowPoslední akce od Verisign
down arrowZávěr

Pozadí na orientální jazykové znaky

Čína (čínština)

Čínština je jedním z nejstarších mluvených a psaných jazyků, které se dnes používají. Mandarin mluví více než 1,3 miliardy lidí, a to a novější, zjednodušená metoda psaní, kterou používají lidé z pevninské Číny, není ničím jiným než úpravou procesu, který byl slyšen v rozhovorech po více než dvě tisíciletí. Mnoho dalších národů pokračovalo používat to stejným způsobem, že to bylo poprvé použito v Číně. Mezi ně patří Japonsko, Korea, Tchaj-wan a Vietnam. V prvních třech Číňanech stále tvoří páteř veškerého běžného psaní a mluvení.

Wiegerova klíčová kniha o postavách a konstrukci Číňanů, vydaná v roce 1915, se měla stát zdrojem defacto, proti kterému by se všichni ostatní (a stále měli) srovnávali – s několika námitkami. Mezi nimi je patrný předpojatost z jeho strany proti taoismu, což se stává evidentnější v jeho analýze Tao Tsang (tj. Taoistický kanon oficiálních písem [psaný „DaoZang“ v PinYin Romanizace pevninské Číny])

Bylo to způsobeno jeho náboženským a kulturním výcvikem jezuitského otce v Číně (zatímco to bylo v příšerném procesu odtržení se od tisíců let jako totalitní stát provozovaný hierarchií císařů a císařských byrokratů) a také kvůli společným západním předsudkům dne proti orientální kultuře a společnosti.

Tam, kde se tento nepatrný předmět objevuje v ruce, Wieger připravuje poprvé v populárním tisku formalizaci názoru, že existuje obrovské množství „nadbytečných“ postav, které jsou zbytečné a brání rychlému pochodu do moderní doby. Se kterým se Čína chovala (ať už chtěla, nebo ne). Skutečnost je taková, že tato předpojatost a její do očí bijící neznalost skutečné hodnoty tak velkého množství takzvaného „nadbytečnosti“ pokračuje dodnes, a tak zůstává i nadále bodem tření mezi orientálními a zavádějícími westernisty.

Je také třeba vědět, že tam bylo více než několik chyb, některé křiklavě zřejmé, některé ne, které Weiger identifikoval ve své knize jako „nadměrné množení“, ve kterém jeho nechuť stává jasnější: „1. Příčiny nadměrné zmnožení postav… Za prvé, neznalost písařů, kteří neustále vynesl na světlo vadných forem, které byly tupě reprodukovaných potomstvo; pak je třeba se cítil dát jména novým věcem. Impérium rostlo, učení se šířila; psaní se stala veřejná věc; proces hsing-sheng [fonetická komplexy, ve kterých jedna část má význam, zatímco ostatní body z výslovnosti] je jednoduchá, vše se na něj. Z tohoto chaotického procesu kvašení, bez směru, bez kontroly, bez kritiky, vyskočil spolu s užitečnými znaky, tisíce zbytečných čtyřhře“ poskytnout přehled o tom, co našel tak děsivě chaotické, že různá množství postav, jsou následující:

Z doby kolem roku 800 před naším letopočtem [Před Běžné (křesťan) období], a to až do doby asi 300 až 200 před naším letopočtem, množství charakterů v užívání zůstal stejný; je asi 3300 celkem. Na konci této doby se částka začal růst rychlým klip tak, že sto let před začátkem prvního tisíciletí tam bylo asi 7380 indexovaný. Tato částka nafoukla mírně více než 10.000 prvním roce CE. Jak roky dál, stále více a více znaků byly přidány k celkovému až do velkého slovníku K’ang Hsi (dokončena v roce 1716 CE) kodifikoval sadu do stavu, který je vidět i dnes.

Weiger uvádí ve své knize, že tento (a tudíž celá schválil set citován jako konečnou autoritu od té doby)  „…obsahuje 40.000 znaků, které mohou být jasně rozděleny takto: 4000 znaků v běžném používání; 2000 vlastní jména a dvoulůžkové omezené použití; 34.000 zrůdy, které nemají praktické využití. Jsme daleko od legendárního počtu 80.000 běžných postav, připsal čínského jazyka.“ Co se týče počtu jde, K’ang Hsi skutečně obsahuje přiblížil na 40.000 znaků v tučným písmem, ale až ve svých vysvětlujících textů uvedených spolu s každým z těchto znaků, a autorizovaný end-doplněk znaků během procesu jejího první tisk, existuje alespoň několik tisíc víc, takže je to bezpečné říci, že Weiger je nesprávný a že normální počet je blíže k čtyřicet pět až padesát tisíc celkem.

Specifickou velikost a obsah komunisticky schváleného souboru, který dnes lidé na pevnině používají, je velmi obtížné stanovit – zdá se, že se liší v závislosti na okolnostech. Velké úsilí začalo – po vypuknutí nacionalistů na Tchaj-wan – racionalizovat a modernizovat vzdělávání mas, aby Čína mohla zahájit skutečný pokus dohnat západní národy. Byla zavedena reforma celkové minimální sady znaků, která postačuje pro většinu běžného používání a vzdělání na střední školu, a mandarínština, jak se mluví na severu, byla vyhlášena jako první národní jazyk. Mnoho postav, které byly považovány za příliš složité na psaní a zapamatování, a velké procento duplikátů bylo zcela odstraněno, takže seznam, jak je vyučován ve školách, je o něco více než 6 000.

Novou a velmi efektivní sada alphanumerics známý jako Pinyin romanizace byl zaveden – to důmyslné zařízení je velmi podobná v podstatě na Romaji Japonců, ale s přidáním „diakritikou“, která dávají „tóny“ (Mandarin používá čtyři), takže nezbytné pro pochopení významu samotných slov. Rovněž významná část ze znaků, které zůstávají byly podrobeny procesu Jianhua Hanzi („zjednodušená čínských znaků“), tak, že tyto jsou také jednodušší psát.

Ale tato poslední změna má hluboký vliv na několik generací studentů, kteří se učili novou sadu, s vyloučením ostatních postav z minulosti. Jianhua Hanzi může být i zcela nový psaný jazyk, protože má za následek odepření přístupu k tisícům let literatury, která předcházela převzetí moci komunisty v roce 1949. To vyžaduje přepisování standardních stavebních prací, včetně jádra stará klasika, takže mohou být studovány – přepočtu bytí tiché znamení, že tyto práce jsou „schválená“ vládou, a tím také mají oficiální schválení myšlenek a konceptů nalezených uvnitř.

Protože tento „odříznutí“ děl minulosti se ukázala být tak závažné, a v některých případech i profesionálně trapné, že poptávka ze strany čínské vlády, že nová 6,000+ jádro Jianhua Hanzi být zahrnuty spolu s neschválenému částky starší, klasické Hanzi znaky (vpravo až do plné výše, pokud je někdy považováno za nezbytné) není nerozumné vůbec, vzhledem k okolnostem. A to přináší přidanou efekt, který, i když je základní jádro postav vyučovaných v primárním prostřednictvím sekundárních úrovních státní školství zůstal poněkud konstantní, samotná skutečnost, že komunistická Čína si vyhrazuje právo přidat nebo odebrat nebo změnit z K’ang Hsi kompilace znamená, že pokusy na Západě ztuhnout a index systém psaní Číny bude vždy také nestabilní.

Tchaj-wan (čínština)

Tchaj-wan (dříve Formosa) se objevil v roce 1949, když nacionalistická vláda Chiang Kai-shek tam ustoupila z pevniny po porážce ze sil Mao Zedong [Mao Tse Tung] a komunistů. Tchaj-wan, kdysi bývalý výrobce zemědělských produktů na cestě, má dnes jednu z nejživějších ekonomik na Zemi. Protože většina neregistrovaných lidí, kteří obývají ostrov, pocházela z nedaleké provincie Fujianin v jihovýchodní Číně, zůstává její hlavní postoj nejen naprostou opozicí vůči komunistům a jejich vládě, ale také obsahuje velký prvek starší zášť převzetí Manchusem ze severní oblasti Číny z vládnoucí dynastie Ming na jihu v roce 1544 nl Navzdory tomu, oficiální jazyk na Tchaj-wanu je Mandarinka (protože to je jazyk vyšší třídy mluvený vládou, protože odvolání Mings vůbec, a následný vznik národa kapitál v Pekingu na severu).

Tchaj-wan má nadále velmi silné a úzké vazby s „zámořskými Číňany“, které lze nalézt po celé planetě, provozují rozšířený obchod a obchod a přitom si zachovávají životní linie na Tchaj-wanu a v Hongkongu. Názor, že člověk nemůže beztrestně zkrátit formální kořeny minulosti, je ostře zastán. Tchaj-wan je i nadále baštou pro odkaz předkomunistické Číny a její dávné minulosti. Spolu s Koreou a Japonskem jsou velké části populace buddhističtí a konfuští v jejich náboženském a filozofickém výhledu. Tchaj-wan má přidanou podmínku, že i když jeho hlavním náboženstvím je buddhismus, taoismus běží těsně vteřinu. To znamená, že si přejí mít přístup k spisům těchto tří systémů, zejména být “Analects of Confucius” (zapsáno krátce po Konfuciusově smrti v roce 479 př. Nl) a jeho spojeneckým souborem děl, buddhistickým kánonem (DaZang) pocházel z původního Pali Canon zapsaného v pátém století před naším letopočtem a taoistického kanovníka (DaoZang), jehož psaní začalo již v roce 300 BCE, i když jeho filozofické kořeny jsou mnohem starší. (Taoistická Canon samotná provozuje 1270 svazků po 200 stranách psaní a kreseb.)

Je téměř ztráta času říci, jak velký dopad měly tyto tři soubory děl na minulý a současný makeup zemí Dálného východu. Studovat tato díla sama o sobě vyžaduje schopnost číst klasické postavy, a to je jeden z největších důvodů pro odmítnutí Tchajwanců vzdát se.

Singapur (čínsky)

Tato malá země, ekonomicky důležitá daleko za svou velikostí, používá v podstatě stejný systém psaní postav; používající Mandarin jako svůj oficiální mluvený jazyk, platí pro něj stejná pravidla jako pro komunistickou Čínu. Ve skutečnosti, Singapur je jedinou další zemí, která se spojila tak úzce tímto způsobem na nezávislé bázi, s PinYin a Jianhua Hanzi se učí ve školách po boku hluboká úcta k klasické K’ang Hsi bázi, plný charakteru konstrukce minulosti.

Korea (korejština)

„Pokračující používání čínských znaků v japonském a korejském jazyce vedlo k rozšířenému mylnému názoru, že mezi těmito třemi jazyky existuje úzký vztah. Bližší pohled odhalí, že podobnost končí vypůjčováním znaků, když neexistoval systém psaní. a pokračující používání slov „půjčky“ v korejštině a japonštině od čínštiny.

„Historicky úzké kulturní spojení mezi Čínou a Koreou vedlo k nevyhnutelné výpůjčce slov. Korejská gramatika a skloňování se však od čínštiny naprosto liší. Ve skutečnosti je Bruce Grant uvedl ve svém úvodu k Vodítkem pro korejské znaky, „čínský a anglický mají více společného, než dělat čínský a korejský. Korean je s největší pravděpodobností členem Ural-Altaic rodina jazyků a je podobný japonský; Je zajímavé si povšimnout, že finský je také sub-člen skupiny“  [citováno z Korejštiny s čínskými znaky 1, Richard B. Rucci]

Všimněte si, že to, co je kloubově ve výše uvedeném odkazu je využití mluveného jazyka, spíše než písemnými ideographics (pravidelných čínskými „znaky“, které jsou ve většině případů, pictographic spíše než fonetický, jedná se nazývá Hancha by Korejci). Korejci udělali vytvořit vlastní fonetický založené psaný jazyk, Hangul, v roce 1446 nl, a to může být považována za nejoslnivější konstrukce, dokonce k tomuto dni. Z technického hlediska to byl navržen od začátku, aby bylo možné popsat jakýkoliv zvuk lidského krku a úst je schopen produkovat v řeči, a to v prostoru ne více než to, co může být psán s jasností, v 24 x 24 [dot na palec] prostor.

Až do nedávné doby však asi 60% celkové slovní zásoby bylo stále tvořeno slovy vypůjčenými z čínštiny. Po osvobození Koreje od japonské kontroly v roce 1945 a ještě více po velkém přílivu věcí, které západní přinesli spojenci během korejského konfliktu, byl stanoven trend, který pokračuje dodnes, že se stále více spoléhá na rychlost a jednoduchost fonetického Hangulu.

Toto nedávné rozpětí času je jen krátkým zlomem v úplné existenci korejského psaní a literatury. Určitě to předchází japonskému použití formalizovaného systému psaní, protože ten se dozvěděl o čínských postavách prostřednictvím kontaktu s korejským soudem a konfuktivními a buddhistickými učenci, těsně před 100 nl. Na druhé straně Korea může určitě prokázat, že používá obyčejný čínský psaný jazyk přinejmenším od počátků období válčících států (403-221 př. nl) v Číně, kdy celonárodní masakr a ničení vynucená migrace na ty, kteří nemohli (nebo nechtěli) přežít pouhou fyzickou schopností a mazaný. Mnozí hledali útočiště v mírumilovnějších podnebích – Korejský poloostrov byl po celé desetiletí neustálých bojů takový útočiště.

V těchto dnech je běžné, že noviny a podnadpisy v zahraniční televizi se tisknou výhradně v fonetickém jazyce Hangulu. Ve vzdělávání však stále zůstává, že absolventi středních škol musí být zdatní v asi 900 čínských postavách a ti, kteří se chystají dokončit střední školu, se musí naučit dalších 900, což je celkem 1800.

Jedině gramotnost při používání Hangulu rozhodně není plná gramotnost. Korejští učenci říkají, že k pochopení psaní minulosti je zapotřebí mnohem vyšší úroveň plynulosti, než je tato částka. (Toto je často myšlenka jako bytí předchozí k 1945 osvobození Rusy na severu a západními sílami na jihu od japonské okupace. Přesněji, minulost by měla být považována za čas před začátkem tohoto zaměstnání, v 1910, když bylo korejským zákonem používání korejského písma a jazyka zakázáno).

Korejští učenci právem trvají na tom, že skutečná gramotnost má schopnost číst díla všech předmětů od těchto spisovatelů minulosti a takové věci obecně obsahují rovnováhu ne více než 30% Hangulu až 70% čínských znaků. Vysoké školy a univerzity tuto skutečnost vždy znaly a dokonce i v dnešní době tyto instituce požadují použití 70-30 procentního podílu ve veškerém psaném textu, který se tam vytvořil. Na druhé straně je Hancha v novinách oficiálně omezena na částku, která se dozví na střední škole, aby bylo možné dosáhnout jednotnosti porozumění v běžné populaci.

Další oblastí sporu je použití jmen. I když je dnes běžné, že se Hangul používá k vysvětlení jména osoby, lidé jsou stále pyšní na to, že jsou schopni psát své jméno klasickým způsobem, a to znamená více než jednoduché pochopení Hanchy (a jejího doprovodného použití kaligrafie) je nutné, aby se v takových věcech neobjevil nevzdělaný.

Japonsko (japonština)

Japonsko je zvláštním případem v používání znaků Han, protože používání psaného jazyka v této zemi má úroveň složitosti, která dokonce převyšuje úroveň Číny. V roce 1946, nově instalovaná vláda vydala dekret, který by od nynějška oficiálním základ 1.850 kanji (japonské výslovnost pro znaky čínského Hantzu, které používá). Známý jako Toyo Kanji (tj. „Denní použití“ Kanji), v této vyhlášce bylo pozoruhodné tvrzení, že od té doby bylo možné z něj odebrat daná [tj. Osobní] jména všech Japonců a žádná jiná zdroj. Toto byl také schválený, omezený soubor Kanji být používán tiskem. Protože se taková závažná změna brzy ukázala jako příliš obtížná, byl seznam o několik let později (1951) pozměněn, aby bylo možné použít dalších 92 znaků pro použití ve vlastních jménech. Také 28 znaků bylo přidáno do hlavního těla 1850 Toyo Kanji, tyto se obecně používaly a rozpoznávaly zkratky a nadbytečné varianty (s přesným počtem 28 znaků bylo odpovídajícím způsobem odebráno z hlavního těla, takže množství 1850 mohlo zůstat jako konstanta). Toyo Kanji však nemohl doufat, že pokryje i použití rodiny [tj. Příjmení] a jména míst. Ty narážely na desítky tisíc; různé možnosti zatemňují mysl. Také si všimněte, že celkový počet 1850 znaků byl nedávno (1977) změněn znovu a nyní má celkem 1 950 znaků, což je známo jako Kyoiku Kanji (neboli „vzdělávací“ Kanji).

Toto je pouze začátek toho, co musí být jedním z nejsložitějších a nejintenzivnějších systémů psaní na světě. Nejprve však krátká historická prohlídka, aby bylo možné pochopit některé důvody tohoto základního zapletení.

Stejně jako v případě Koreje nebyl japonský mluvený jazyk zastoupen v nejranější formě psaní. Byl to výhradně normální čínský znak (Hantzu). Důkaz toho, že se používá, se datuje již od roku 100 nl O něco později ho do země představili dva korejští učenci Wang In a Ajikki, kteří byli posláni na císařský soud jako učitelé, během 3. století slovníky CE byly odeslány v roce 285, takže toto datum lze považovat za datum formálního zavedení psaní a jeho struktury.

Buddhismus přišel v roce 552 a spolu s ním mnoho textů a principů jeho kánonů. Mniši byli považováni za stejných jako učitelé a čtení a psaní bylo nutností dalšího studia a osvícení, úcta a úcta byla dána písemným materiálům a učení, které bylo překročeno pouze Korejci, kteří jim je původně dali.

Tady veškerá podobnost končí. Japonsko má čtyři různé druhy psaní. Tam je původní kanji, a dvě další, které jsou foneticky bázi, kterými jsou Hiragana a Katakana. Také, tam je Romaji, což je latinské bázi postavy známe, na Západě. Kanji mohou být použity k vytvoření „obrázkové“ piktogramy po boku jeho využití jako zdroje zvuků, stejně jako je to v čínštině. Učební osnovy, Hiragana a Katakana tvoří samy o sobě plně funkční schémata psaní. Hiragana, která je poněkud kursivní, lze použít k rozšíření Kanji – ve skutečnosti lze vše v Kanji napsat v Hiraganě. Katakana, který má mnohem tekutější vzhled než Hiragana, se používá k napsání jakéhokoli slova, které nemá své kořeny v Kanji, jako je mnoho cizích slov a myšlenek, které se v průběhu staletí rozšířily do všeobecného použití.

Lze tedy říci, že Hiragana může tvořit obrázky, ale Katakana může tvořit pouze zvuky, a moderní věda to dokázala. Lidé s určitými poruchami mozku nebo skutečným fyzickým poškozením mohou někdy rozpoznat a fungovat v jednom a ne ve druhém, protože tyto metody fungují na dvou různých polokoulích. Romaji se používá ke snaze zabránit tomu, aby se celá psaná věc vymkla kontrole, přičemž tímto mechanismem se do jazyka vnáší většina západních konceptů a nezbytných slov. Po čase se tato slova (i když si budou ještě nějakou dobu udržovat svou „římskou“ podobu) stanou nerozeznatelnými pro lidi, od kterých byli původně půjčeni, jako je věta „Osobní počítač“, která je nyní „pasokon“ nebo „persacom“ v Japonsku (druhé je běžné v Nagasaki a přilehlých oblastech).

Před náporem angličtiny v posledních několika desetiletích bylo zjištěno, že 41% slov používaných v běžné konverzaci a psaní bylo založeno na čínštině (ve formě postav a zvuků). Jak člověk stoupá výš do sfér vlády a akademie, toto procento se odpovídajícím způsobem zvyšuje. Nárůsty, jak se učí ve škole, jsou následující. 850 Kanji se vyučuje na základní škole, 46 znaků v platové třídě, 105 v platové třídě, 187 v platové třídě, 205 ve platové třídě, 194 ve platové třídě a 144 v platové třídě. Zbytek z 1950 musí být plně zapamatován do doby ukončení střední školy v platové třídě. Nezapomeňte, že tento součet je pouze zákonem požadovaným minimem, aby byl považován za gramotný. A to se má zcela absorbovat spolu se zpětným lámáním dalších předmětů.

Chcete-li být považován za vážný čtenář z „klasiky“ japonských literárních a náboženských děl vyžaduje plné znalosti stejně hluboké a široké jako to učenci Číny. Minimálně 10.000 znaků a až je povinné, a celkově může být logicky prodloužen až do konce plného Kanji (K’ang Hsi) slovník s jeho 50.000 odlišných ideografy.

šipka nahoruDopad nedávných západní technologie Orientu

Za posledních pět let došlo v Číně k více změnám než v předchozích padesáti a padesát obsahuje více změn než za posledních tisíc. To nelze říci o Japonsku a Koreji (pouze proto, že začaly dříve, a tak dosáhly stavu frenetické transformace, která probíhá, spíše než aby se právě nedávno náhle probudila do stavu úplného šoku při zjištění, že běží na svém místě, plná -vývrt).

Až do příchodu internetu před několika lety bylo používání osobního počítače v Japonsku považováno za známku neobvyklého chování – v zemi, která se obávala něčeho mimo normu. Existuje staré japonské přísloví: „Hřebík, který se drží, dostane bušený dolů“. To znamená, že norma spočívá ve snaze být stejně jako všichni ostatní ve společnosti a nedovolit, aby se nějak stal „jednotlivec“. Nelze přeceňovat, jak hluboce zakořeněný je tento koncept, a to ani dnes.

Osobní počítače byly přesně tak, jak napovídá název: něco, co bylo použito samo o sobě, a proto oddělil jeden od zbytku skupiny (sestávající z mnoha skupin ve skupinách) – a tato akce nakonec vedla k tomu, že se stal outsiderem, a pak dokonce mimozemšťan. Následovalo oddělení a to by se stalo stavem postupného úpadku a případného vyloučení i z vlastního já. Pro Japonce bude tedy tradičně obtížné dělat cokoli, co povede k takovému vyloučení, zatímco Číňané (av menší míře Korejci) tento problém netrpí vůbec. V Číně je člověk vždy Číňan bezpodmínečně, má rodinu a vesnici, bez ohledu na to, jak daleko je člověk nebo kolik generací je pryč.

Ale vracet se k problému, kterému čelí tento hypotetický jedinec v Japonsku: po dlouhou dobu bylo používání počítače považováno za formu trestu nebo mučení těm, kteří byli zatraceni svým postavením v pracovní síle, nebo šíleným okrajem umělec nebo vědec, kterého by ostatní pravděpodobně už dlouho vyhýbali, ještě než získali přístup k jejich první klávesnici.

Příchod internetu to všechno jednou provždy změnil. Výraz „internet“ znamená „to, co je vzájemně propojeno“, a to je samozřejmě zcela v pořádku s japonskou společností. Bylo vidět, že se vyvíjí spolu s celulárním telefonem, což také usnadňovalo „propojování“ jedné skupiny se vzájemně propojenými skupinami, založené na matici mezi maticemi protínajícími město a zemi a případně celou planetu). Stejně jako je používání mobilního telefonu v Japonsku extrémně vysoké, je integrace počítače téměř do všech ostatních domácností. Je to levné, rychlé, spolehlivé – a útulné.

Při používání této technologie však Japonci trpí stejným problémem jako Číňané a Korejci: vtak: jak si do vstupního zařízení (klávesnice, tablet, co máte) tak zahráváte tolik znaků? že můžete dělat to, co dělají ostatní na Západě, s jejich jednoduchým souborem alfanumerických údajů, které jsme nám předali od Římanů? Klávesnice byla navržena pro nás na Západě. Stejně tak standardní monitor a tiskárna založená na teletypu.

Není náhodou, že se tato zařízení nyní vyrábějí převážně v Orientu (s omluvou společnosti Hewlett-Packard a jejich úspěšné řadě severoamerických tiskáren), a hlavním důvodem je to, že úroveň kvality, kterou by většina z nás nabídla , jako je zelený monitor s nízkým rozlišením, zelený monitor 40 znaků na řádek a jednopólová tiskárna, byly naprosto nepoužitelné pro lidi, kteří potřebovali generování znaků s vysokým rozlišením ve vertikálním režimu 24×24 DPI Totéž platí pro tiskárnu. Epson vyšel s osmipinovou tiskárnou, aby dokázal generovat znaky Hiragana a Katakana najednou – ne proto, abychom mohli udělat hezčí A a B. Také dali tiskárnám režimy „Grafika“, aby bylo možné vytisknout „obrázky“ (nejčastěji ruční psaní u asijských zákazníků).

Tato kapacita pro grafiku je rovněž jedním z hlavních důvodů, proč se faxový stroj tak rychle stal běžným zařízením. Dokáže reprodukovat a přenášet ruční psaní čínských, japonských a korejských znaků.

Nakonec, s velkým posunováním v oblastech barev a grafiky s vysokým rozlišením, lepších vstupních zařízení, jako je skener (který lze považovat za faxový přístroj pro počítače), lepších výstupních zařízení, jako je inkoustová a laserová tiskárna, a dokonce bastardizované klávesnice a software, který by mohl generovat tisíce znaků – pokud si jen jeden dokáže pamatovat každý z každého vstupního kódu. Grafické tablety zmírnily bolest, když se muselo něco dostat do počítače a z počítače. Nic z toho však ještě není zcela uspokojivé a možná to zůstane v tomto stavu, dokud inteligentní, „počítačový“ počítač s porozuměním hlasu konečně vstoupí do našeho každodenního života.

up arrowNeschopnost Unicode plně oslovit orientální postavy

Bez ohledu na toto vše je růst World Wide Web na nás a na všech ostatních na této planetě. Současná filosofie je obsažena ve víře, že „angličtina je novým obchodním jazykem Lingua Franca“ – takže to může být také jazyk každého, kdo používá web.

Dovolte mi to přeformulovat poněkud: Angličtina je snadno jazykem webu, ale ne nutně jazykem internetu. Jak se předpokládá většina lidí, tyto dva se vzájemně nevylučují. Toto je nešťastná chyba v západních postojích. Rozšiřuje se do základů operačního systému a nyní mu bylo umožněno zasahovat do struktury a nástrojů, na nichž je web postaven

ISO a Unicode se pokusily tuto chybu napravit.Jak je uvedeno, Unicode uvedl, účelem je umožnit formalizovaný systém písmo, které mají být generovány ze seznamu čísel, umístění, které lze formulovat kždý psaný jazyk na planetě.

Bohužel to nemůže, bez rozsáhlé gymnastiky.

Aktuální permutace Unicode dává teoretické maximum přibližně 65 000 znaků (ve skutečnosti omezeno na 49 194 standardem). Zpočátku to připadalo více než dost odvážným duším, které nastavily formální rozsah velmi dlouhého řetězce po sobě jdoucích čísel, jimž jsou přiřazeny znaky různých jazyků. Byl to dobrý nápad, za kamerou – s výjimkou zemí, které nebyly pozvány na úvodní párty.

Tito nepozvaní zahrnovali skupiny s nejvíce znaky, které mají být přiřazeny. Ve skutečnosti se nejednalo o nic jiného než o pevninskou Čínu, Taiwan, Koreu a Japonsko.

Reakce byla předvídatelná, a podle mého názoru oprávněné. Čína pevniny trvá na tom, že všichni jeho normálních úředních 6,000 charakterů být zahrnuty, spolu s mnoha „zjednodušené“ variant, a zbytek starší, klasické K’ang Hsi sadu 40,000+ postav. To samo o sobě je dost zabírají téměř všichni vymezený prostor v celém Unicode/UCS-2 spektra.

Pak Taiwan a zámořské čínské (u kterých existuje 125 milionů, celkově dobře umístěné a dobře vzdělaní lidé) uvedlo, že mají právo na jejich vlastní kompletní sadu K’ang Hsi postav – všechny z nich ve svých původních složitých tvarů. Jednalo se o přidání dalších 50.000 znaků, a nemohli používat stejné číslování jako těch, které se k komunisté na pevnině.

Mezi těmito dvěma skupinami, bylo nyní potřeba generovat více než 90000 individuálních číslovány umístění. Japonsko si stěžovali a řekl, že to bylo o nic méně vlastníkem svých vlastních znaků (včetně „kokuji“, což jsou znaky, které se zdají být v čínském odvozené, ale jsou skutečně jedinečně japonská), a proto by měl být další blok nastavit pro ně , A protože by to mohlo teoreticky obsahovat všechny znaky používané doposud, by bylo zapotřebí dalších 40,000+ umístění. A konečně, nelze vynechat z okruhu oprávněných žadatelů, Koreji, protože jeho vlastní sadu minulých i současných okolností požádal o jeho plné míře také.

To jsou jen některé z mnoha důvodů, že částka potřebná k uspokojení těchto požadavků může být velmi snadno převedena na celkem přes 170 000 znaků, pokud každý z výše uvedených národů bude nadále tlačit svá psaná jazyková práva na maximum – a existuje absolutně není důvod očekávat žádnou změnu v jejich touze tak učinit.

Poznámky editora:

1. Jak je to nejlépe, jak mohu říci – výslech některé z průkopníků v ARPAnet a přenosových protokolů – ty znalých byli plně vědomi, že je třeba, aby nakonec přizpůsobit orientálních znaků, před jak hodně jako 30 roků. Potíž byla v tom, že by se zeptat jeden čínský nebo japonský nebo korejský – a že osoba, při pohledu na znakové sadě svém vlastním jazyce, by ujistit je, že Unicode bude stačit. Je to pouze tehdy, když se dostanete všechny na národnosti ve stejné místnosti, kde se problém projevuje. A s internetem, teď jsme všichni „v jedné místnosti.“

2. Dalším zdrojem dohledu vychází z tendence mnoha západních o propuštění starší orientální znaky jako „klasika“, i když ve skutečnosti jsou stále v provozu právě z tohoto důvodu – čtení klasickou literaturu.

up arrowProč Unicode 3.1 problém nevyřeší

Unicode nedávno oznámila verzi 3.1, která – vymanit se ze dvou oktetů „Rovná nula“, které si původně dovolili ve verzi 3.0, se 49 194 znaky – by do schématu přidala další dva oktety a dalších 44 946 znaků, což je celkem 94 140 .

To stále žalostně postrádá 170 000+ potřebných postav.

Je zřejmé, že 32 bitů (4 oktetů) by byla více než adekvátní, jestliže se jednalo o souvislý blok. Vskutku, „18 bitů široký“ (262.144 variací) by mělo stačit k řešení světové znaky pokud souvislém bloku.

Ale dva samostatné 16 bitové bloky neřeší problém vůbec.

up arrow Politický význam tohoto vyjádření v západních podmínkách

Chcete-li to vyjádřit západně, jak by se anglickým mluvčím líbilo, kdyby byly najednou omezeny na abecedu, která postrádá pět nebo šest jejích písmen, protože by mohla být považována za „podobnou“ (jako například „M“ a „N“ a vypadají stejně jako ostatní) a také příliš „složité“ („Q“ a „X“ – proč už nejsou ničím více fanatikem „C“ a „Z“). Dalo by se podpořit analogii tím, že by se angličtina měla vzdát asi tří ze čtyř slov, která se nacházejí v anglickém jazyce, protože jsou nadbytečná, příliš tajemná nebo pouze zbytečná a moderní řeč nepotřebuje ani nepoužívá jim. To by byl konec Bible i Shakespeara.

Je třeba dále zvážit zbývající nepřátelství pramenící ze století války. V tomto smyslu je Orient trochu odlišný od Evropy; rozruch, který vznikl v souvislosti s tím, že se ES [Evropské společenství] mění na společnou měnu (euro), by nebylo nic ve srovnání s pobouřením, které by nastalo, kdyby Francouzi byli nuceni používat německou abecedu, nebo Angličané nuceni používat francouzštinu abeceda. Tato otázka by také nebyla čistě emotivní. Takové změny by byly víc než obtěžování, ve skutečnosti by byly hrozbou pro vlastní jazyk a způsob myšlení.

Analogii lze snadno pokročit, pokud se člověk domnívá, že v posledních letech došlo k politickému napětí, protože různé země byly v ES odmítnuty (a někdy později uděleny). V podobném duchu je vynechání jazyka z internetu rozhodně případem „odepření členství“.

up arrowPoslední akce od Verisign

Společnost Verisign nedávno otevřela Pandorinu krabici, když společnost uvedla, že přijímá objednávky na adresy URL v jazyce zejména těm zemím, které buď chtějí, nebo vyžadují práci v písemném souboru jiném než latině1.

Společnost poněkud ustoupila od vytí strachu a hněvu od těch, kteří to vědí, nemůže fungovat, aniž by způsobila velké trápení těm, kteří musí spravovat a pracovat na World Wide Web.

Některé země to také odmítají jako nedotknutelnost ze strany Verisign, protože to považují za urážku jejich úsilí o zachování suverenity státu. Čína je hlavní zemí, která má vyjít a říct to, odmítá takové pokusy, jako je vměšování do svých vlastních vnitřních záležitostí. Možná mají pravdu.

Stejný truismus lze použít nejen na adresy URL, ale i na samotný internet. Ze Západu neexistují žádné vhodné nástroje, které by umožňovaly weby, které fungují v mezinárodním měřítku, a prohlížeče, které jsou skutečně transparentní a bezproblémové v každodenním používání pro tento segment budoucnosti. Zeptejte se kohokoli, kdo ho musí použít, a chce udělat něco jiného, ​​než co může být vytvořeno pomocí pseudo-ascii (jako je francouzština, němčina nebo albánština) – nebo potřebuje postavy, které jsou svisle zarovnány a musí zabírat minimum 32 x 32 bodů za každý.) Chcete-li i nadále věřit, že propojení World Wide Web lze provést pomocí prohlížečů závislých na Ascii a – což je ještě důležitější, serverů závislých na Ascii – je naivní.

up arrowZávěr

UCS-2 (s 2 oktetovými bloky na znak) se skutečně jeví jako nejjednodušší systém pro používání znaků (a ten, který nejvěrněji sleduje původní úmysly Unicode) – s tou výjimkou, že, jak již bylo uvedeno, má celkově příliš krátký celkový délka adresy pro zahrnutí všech známých znaků všech známých jazyků.

Pozornost věnovaná jiným metodikám certifikovaným Unicode pro provádění stejných věcí jsou UTF-8, UTF-16 a UTF-32. Citace příspěvku Unicode: „Různé kódovací formy Unicode jsou užitečné v různých systémových prostředích. Například UTF-32 je v použití poněkud jednodušší než UTF-16, téměř ve všech případech zabírá dvojnásobek úložiště. Běžnou strategií je mít úložiště s vnitřním řetězcem používat UTF- 16 nebo UTF-8, ale použít UTF-32 pro jednotlivé datové typy znaků.“

Tohle je fajn; ve skutečnosti většina počítačových aplikací takovým způsobem již funguje, a to před Unicode. Problém je v tom, že – i při jednoduchém vysvětlení toho, co je zjevně jednoduchým problémem – se musí odpovědět alespoň tři oddělené kodifikační vzorce. Nové standardy lze snadno formulovat pomocí 4 oktetových bloků (ad infinitum) – ale jejich nasazení na Unicode 3.1 jednoduše zhoršuje složitost mapování fontů, protože Unicode 3.1 zvyšuje složitost UCS-2.

Stručně řečeno, toto je politicky výbušná budoucnost, které nyní čelíme.

Číňané mají starověký výraz: „Nic není mocnější než nápad, jehož čas nadešel.“

Nastal čas. Otázka je nyní: co tento nápad vyroste?

###


Norman Goundry je počítačový programátor, překladatel a spisovatel referencí specializující se na vzácné taoistické náboženské texty a lékařské práce. Obvykle ho lze najít pohřbeného hluboko v katakombách asijských studií UK v Britské Kolumbii s omezeným vstupem, kde pracuje s vzácnými taoistickými kanonickými texty, které se v něm nacházejí. Vyjadřuje tuto osobní zkušenost s limity Unicode: „Nedávno jsem musel navrhnout jedno proprietární písmo skládající se z více než 50 000 individuálních Han Složité postavy podle těch, které jsou uvedeny v Kang Hsi Dictionary of 1710 pro mé vlastní ručně programované překladové rozhraní, kvůli neustálé frustraci z toho, že nemám k dispozici konkrétní znak pro použití, když je to potřeba. Pozorně jsem se podíval na Unicode a pak jsem jej odmítl, protože podle mého vědomí neobsahuje ani jediné plné reprezentativní indexování fontů znaků potřebných pro překlenutí kterákoli z výše uvedených skupin.“


Reference

Chinese Characters, by Dr. L. Wieger, S.J.

Korean With Chinese Characters 1, by Richard B. Rucci

The Modern Reader’s JAPANESE-ENGLISH CHARACTER DICTIONARY,
by Andrew Nathaniel Nelson, Ph.D
Charles E. Tuttle Company: Tokyo (1962)

Emperor Kang-Hsi’s Character Dictionary,
(full revision of the original of 1716 – in Chinese only)
Yih Mei Book Company, Hong Kong

The Basic English-Chinese / Chinese-English Dictionary
by Peter M. Bergman
Signet-New American Library Press, New York (1980)

The World Chinese-English / English-Chinese Dictionary
New Arts Company, Hong Kong

Copyright © 2001 Norman Goundry. All rights reserved.