தமிழ் அனையெழுத்துக் குறியேற்றம்

கட்டற்ற கலைக்களஞ்சியமான விக்கிப்பீடியாவில் இருந்து.
Jump to navigation Jump to search

தற்போது புழக்கத்தில் இருக்கும் ஒருங்குறியக் கூட்டமைப்பின் தமிழ் மொழி ஒருங்குறி குறியேற்றத்தினால், அதற்கு முன்பு இருந்த எழுத்துரு பிரச்சனைகள் தீர்ந்தன. ஆனால், தமிழ் மொழியின் மின் ஆளுமைக்கும், தமிழ்கணிமொழியியல் ஆய்வுக்கும், மென்பொருள் ஆளுமைக்கும் இது சிறந்ததாக இல்லை. இதனால், இதற்கு மாற்றாக பலவகையான ஆய்வுகளுக்குப் பின் தமிழ் அனையெழுத்துக் குறியேற்றம்(Tamil All Character Encoding scheme - TACE16) எனுமொரு புதிய குறியேற்றம் உருவாக்கப்பட்டது. இப்புதிய குறியேற்றம் பழைய குறியேற்றத்தின் அனைத்து சிக்கல்களையும் களைந்து உதவுகிறது. இதனால், தமிழ்க் கணிமைக்கு இக்குறியேற்றம் மிகவும் இன்றியமையாததாகும். இதனை ஏற்பதற்கு தமிழக அரசால் ஒரு சிறப்புக் குழு அமைக்கப்பட்டு, பின் பல்வேறு மறுவாய்வுகளுக்குப் பின் தமிழ் இணையப் பல்கலைக்கழகத்தால் தமிழக அரசிடம் இக்குறியேற்றம் பரிந்துரை செய்யப்பட்டது. கி.பி. 2010ஆம் ஆண்டு தமிழக அரசு இக்குறியேற்றத்தை ஏற்றுக்கொண்டது. பின்பு தமிழ் இணையப் பல்கலைக்கழகம், இதற்கான எழுத்துருக்களையும் விசைப்பலகையையும் உருவாக்கியது.

அமைவிடம்[தொகு]

இதன்படி தமிழ் எழுத்துருக்கள் அனைத்தும், ஒருங்குறிய அனைத்தெழுத்து வரியுரு கட்டகத்தின் ( Universal Character Set) பல்மொழிஅடித்தளப் பகுதியில் (Basic Multilingual Plane) அமைந்துள்ளன.

தமிழ் அனையெழுத்துக் குறியேற்றம்(TACE16) அரிச்சுவடி
மெய்யெழுத்துக்கள்→
உயிரெழுத்துக்கள்
E10 E18 E1A E1F E20 E21 E22 E23 E24 E25 E26 E27 E28 E29 E2A E2B E2C E2D E2E E2F E30 E31 E32 E33 E34 E35 E36 E37 E38 E39 E3A E3B E3C E3D E3E E3F
0 அரைக்கால் க் ங் ச் ஞ் ட் ண் த் ந் ப் ம் ய் ர் ல் வ் ழ் ள் ற் ன் ஜ் ஶ் ஷ் ஸ் ஹ் க்ஷ்
1 கால் க்ஷ
2 அரை கா ஙா சா ஞா டா ணா தா நா பா மா யா ரா லா வா ழா ளா றா னா ஜா ஶா ஷா ஸா ஹா க்ஷா
3 முக்கால் ி கி ஙி சி ஞி டி ணி தி நி பி மி யி ரி லி வி ழி ளி றி னி ஜி ஶி ஷி ஸி ஹி க்ஷி
4 அரைவீசம் கீ ஙீ சீ ஞீ டீ ணீ தீ நீ பீ மீ யீ ரீ லீ வீ ழீ ளீ றீ னீ ஜீ ஶீ ஷீ ஸீ ஹீ க்ஷீ
5 வீசம் கு ஙு சு ஞு டு ணு து நு பு மு யு ரு லு வு ழு ளு று னு ஜு ஶு ஷு ஸு ஹு க்ஷு
6 மூவீசம் கூ ஙூ சூ ஞூ டூ ணூ தூ நூ பூ மூ யூ ரூ லூ வூ ழூ ளூ றூ னூ ஜூ ஶூ ஷூ ஸூ ஹூ க்ஷூ
7 அரைமா கெ ஙெ செ ஞெ டெ ணெ தெ நெ பெ மெ யெ ரெ லெ வெ ழெ ளெ றெ னெ ஜெ ஶெ ஷெ ஸெ ஹெ க்ஷெ
8 பௌர்ணமி ஒருமா கே ஙே சே ஞே டே ணே தே நே பே மே யே ரே லே வே ழே ளே றே னே ஜே ஶே ஷே ஸே ஹே க்ஷே
9 அமாவாசை இரண்டுமா கை ஙை சை ஞை டை ணை தை நை பை மை யை ரை லை வை ழை ளை றை னை ஜை ஶை ஷை ஸை ஹை க்ஷை
A கார்த்திகை மும்மா கொ ஙொ சொ ஞொ டொ ணொ தொ நொ பொ மொ யொ ரொ லொ வொ ழொ ளொ றொ னொ ஜொ ஶொ ஷொ ஸொ ஹொ க்ஷொ
B ராஜ நாலுமா கோ ஙோ சோ ஞோ டோ ணோ தோ நோ போ மோ யோ ரோ லோ வோ ழோ ளோ றோ னோ ஜோ ஶோ ஷோ ஸோ ஹோ க்ஷோ
C முந்திரி கௌ ஙௌ சௌ ஞௌ டௌ ணௌ தௌ நௌ பௌ மௌ யௌ ரௌ லௌ வௌ ழௌ ளௌ றௌ னௌ ஜௌ ஶௌ ஷௌ ஸௌ ஹௌ க்ஷௌ
D அரைக்காணி ஸ்ரீ
E காணி
F முக்காணி
குறிப்பு:
ஒருங்குறியக் கூட்டமைப்பின் தமிழ் ஒருங்குறி குறியேற்றத்தில்(v6.3) இல்லை
ஆய்வுகளுக்காக(NLP)ஒதுக்கப்பட்ட இடம்
எதிர்காலத்திற்காக ஒதுக்கப்பட்டுள்ளது

தோற்றம்[தொகு]

தமிழில் தற்போது அதிகப்புழக்கத்தில் இருக்கும் ஒருங்குறியத்தமிழ் (Unicode thamizh) 8-பிட்டு கட்டகத்தை அடிப்படையாகக் கொண்டது. அது தமிழை 1999 ஆம் ஆண்டிலிருந்து, 10ஆண்டுகளாக ஒருங்குறிய (utf8)தமிழ் குறியீட்டமைப்பில் உள்ள குறைபாடுகளை, பல்வேறு நிலைகளில், பல்வேறு ஆய்வுகள் வழியாக தெளிவுபடுத்தி, இப்புதிய தமிழ் அனைத்து எழுத்துத் தரப்பாடு (TACE16) சிறப்பானதாக உருவாக்கப்பட்டுள்ளது.

காலக்கோடுகள்[தொகு]

  • தமிழ் இணையம் 2001 மாநாட்டில், உத்தமத்தின் பணிக்குழு(WG02) ஒருங்குறியத்தமிழ் அமைப்பு தொடர்பான சிக்கல்களையும், தமிழ் அனைத்து எழுத்துக்குறியீட்டை, ஒருங்குறியதமிழுடன் சேர்ப்பது பற்றியும் கலந்தாய்வுசெய்து, 8-பிட்டு பயன்பாட்டைக் குறைத்து, 16-பிட்டு ஒருங்குறியத்தமிழ் எழுத்துருத் தரப்பாட்டினை உலகளவில் பயன்படுத்த வேண்டுமென முடிவு செய்தது.
  • 2007 ஆம் ஆண்டு மே மாதம் கலிபோர்னியாவில் நடைபெற்ற ஒருங்குறியக் குழுமத்தின் தொழில்நுட்பக் குழுக் கூட்டத்தில், இந்த (TACE16) எழுத்துருக்களை, ஒருங்குறியத்தளத்தில் இடுவதற்கான வாய்ப்புகளைப் பற்றி கலந்தாய்வு செய்யப்பட்டது.
  • ஒருங்குறியத்தமிழை,16-பிட்டு தமிழ்க்குறியீட்டுத் தரமாக தமிழக அரசு ஏற்பது தொடர்பாக சிறப்புக்குழு அமைக்கப்பட்டது.

ஆய்வுகள்[தொகு]

ஒருங்குறிய குழுமத்தின் முடிவிற்கு சான்றுகள் தர, பின்வரும் தரங்கள் சோதிக்கப்பட்டன.

  1. உயிர் எழுத்துக்களையும், மெய்யெழுத்துக்களையும் மட்டும் கொண்ட தமிழ் எழுத்துரு தரம்(TAB, TAM)
  2. தற்போதுள்ள ஒருங்குறியதமிழ் தரம் (Unicode Tamil)
  3. அனைத்து எழுத்துகளையும் கொண்ட தமிழ் எழுத்துரு தரம் (TACE-16)

சோதனைகளின் முடிவு, தமிழ் ஒருங்குறிய அனைத்து எழுத்துரு தரப்பாடு(TACE-16) தான் சிறந்தது என உறுதி செய்தது. இம்முடிவுவை தில்லியில் நடுவண் அரசின் தகவல் தொழில்நுட்பத்துறை ஏற்பாடு செய்திருந்த அனைத்து மொழி அறிஞர்கள் கூட்டத்திலும், பிற வெளிநாட்டு அறிஞர்களும் கலந்தாய்வு செய்து ஏற்றனர்.

தேவை[தொகு]

கணினியிலும், இணையத்தமிழிலும் தமிழ் எழுத்துருக்களை உருவமைத்து ஆவணங்களை வடிவமைத்தல், இணையத்தளங்களை அமைத்தல், மின்னஞ்சல் அனுப்புதல் போன்றவை மட்டுமே தமிழ்க் கணிமை அன்று. தமிழ் மொழிச் செயலாக்கம் (Natural Language Processing), நூல்களைப் பதிப்பித்தல், தமிழ்க்கணினி செயலியக்க மென்பொருள்கள் உருவாக்கல், தமிழ்க்கணினி மொழிகள் வடிவமைத்தல், சட்டச்சிக்கல் இல்லா மின்ஆவணங்களை உருவாக்கல் போன்ற பலவற்றிற்கு இப்புதிய 16-பிட்டு குறியீட்டுத் தரத்தை ஏற்பதே சிறப்பாகும்.

வேறுபாடுகளும், சிறப்புகளும்[தொகு]

ஒருங்குறியத்தமிழ் ஒருங்குறிய அனைத்து எழுத்துரு தரப்பாடு(TACE-16)
85% தமிழ் எழுத்துக்களுக்கு இடமில்லை. 100% தமிழ் எழுத்துக்களுக்கும் இடமுண்டு
பிற எழுத்துக்களைப் பெற, தனியொரு இடைமென்பொருள் தேவை அத்தகைய இடைமென்பொருள் தேவையில்லை என்பதால், கணினியின் செயற்திறன் ஓங்கும்.
கட்டளைகள், இரண்டாம்தர நிலை செயற்பாட்டில் (Level - 2 Implementation) தான் செயற்படும். கட்டளைகள், முதல்தர நிலைச் செயற்பாட்டிலேயே (Level - 1 Implementation) செயற்படும்.
தரவுத்தேக்கமும், செயற்பாட்டு நேரமும் 40%அதிகம். தரவுத்தேக்கமும், செயற்பாட்டு நேரமும் வெகுக்குறைவு.
ISCII-1988 தரத்தை அடிப்படையாகக் கொண்டது. அதில் தமிழ் எழுத்துக்கள் இயற்கையான அகரவரிசையில் இல்லை. எனவே, அகரவரிசைப்படுத்த ஒத்திணைப்பு மென்பொருள்(collection Algorithm) தனியாகத்தேவை. அகரவரிசையில் அமைந்துள்ளமையால், ஒத்திணைப்பு மென்மியம் தேவையில்லை.
ஒரு உயிர்மெய் எழுத்தை உருவாக்க, 2,3புள்ளிகள் தேவை. அதனால் பாதுகாப்புச் சிக்கல்களும்(security vulnerabilities), பொருள் மயக்கச்சேர்க்கையையும்(ambiguous combination) உண்டாகின்றன. இவற்றைச் சரிசெய்ய இயல்பாக்க மென்மியம் தேவை. அத்தகையப் பாதுகாப்புச் சிக்கல்களும், பொருள்மயக்கச்சேர்க்கையையும் உண்டாவது இல்லை. அதனால் இயல்பாக்க மென்மியம் தேவையில்லை.
எழுத்துக்கள் பிரியாமல் இருக்கவும் அல்லது பிரிந்து இருக்கவும் கணினிக்கு கூடுதல் பணிச்சுமை ஏற்படுகிறது.(zero - width joiner/ zero - width non-joiner) அத்தகையப் பணிச்சுமை ஏற்படுவதில்லை.
தவறான எழுத்துக்கள் உருவாக்கப்படாமல் இருக்க, விலக்கெழுத்து அட்டவணை தேவை. விலக்கெழுத்து அட்டவணை தேவையில்லை.
தகவற்பரிமாற்றத்திற்கு மட்டுமே உதவும். தகவற்பரிமாற்றத்திற்கும், இன்னும்பிற மேம்பட்ட தமிழ்கணிமை ஆய்வுக்கும் , வளர்ச்சிக்கும் இன்றியமையாதது ஆகும்.
ஒருங்குறியச்சேர்த்திய விதிகளின் படி, எழுத்துக்கள்(characters)மட்டுமே குறியிடப்படல் வேண்டும். வரிவரைவுகள் (glyphs) குறியிடப்படக்கூடாது. எனவே, தற்போதுள்ள இந்த ஒருங்குறியத்தமிழ் ஒருங்குறியக்கூட்டமைப்பின் கோட்பாடுகளுக்கு முரணானது. வரிவுரைவுகளோ அல்லது துணைக்குறியீடுகளோ உருவாவது இல்லை. அனைத்து எழுத்துக்களுக்கும் தனியிடம் கொடுக்கப்பட்டுள்ளது.
கோப்பைகளை சேமிப்பதில் அதிக இடம் தேவைப்படும் கோப்பைகளை ஒருங்குறி தமிழ் குறியேற்றத்தை விட குறைந்த இடத்தைக் கொண்டு சேமிக்க முடியும்.
அதிக இணைய தகவல் பரிமாற்ற தேவை ஒருங்குறி தமிழ் குறியேற்றத்தை விட குறைந்த இணைய தகவல் பரிமாற்றமே தேவை.
இந்த ஒருங்குறியத்தமிழ், பல இயக்கமென்மியங்களில் சரிவர செயற்படுவதில்லை. இயக்கமென்மியங்களில் (system softwares) சரிவர செயற்படும்.

தமிழ்க் கணிமை சிறப்புகள்[தொகு]

உயிரெழுத்து மற்றும் மெய்யெழுத்திலிருந்து உயிர்மெய்யெழுத்து எளிதாகப் பெறமுடியும். உயிரெழுத்து மற்றும் மெய்யெழுத்து ஆகிய குறியேற்றங்களைக் கூட்டி, அதிலிருந்து E200 எனும் எண்ணைக் கழித்தால் உயிர்மெய்யெழுத்தின் குறியேற்றம் கிடைத்துவிடும்.
வழிமுறை 1:

   க் + இ = கி
   E210(க்) + E203(இ) = 1C413
   1C413 - E200 = E213(கி)

வழிமுறை 2:

   க்(E210) + இ(E203) = கி(E213)
   E210(க்) | ( E203(இ) & 000F ) = E213(கி)

கணிமையில் முதல் வழியைவிட இரண்டாம் வழி மிகவும் வேகமானது.

உயிர்மெய்யெழுத்திலிருந்து அதன் உயிரெழுத்து மற்றும் மெய்யெழுத்தை குறைந்த கணினி செயல்திறன் மற்றும் குறைந்த கணினி முதன்மை சேமிப்பகம்(RAM) மூலம் எளிதாகப் பெறமுடியும்.

   E213(கி) & F20F = E203(இ)
   E213(கி) & FFF0 = E210(க்)

வெளியிணைப்புகள்[தொகு]