சிஃபுவின் விதி

கட்டற்ற கலைக்களஞ்சியமான விக்கிப்பீடியாவில் இருந்து.
தாவிச் செல்லவும்: வழிசெலுத்தல், தேடல்
சிஃபுவின் விதி
Zipf's law
Probability mass function
Plot of the Zipf PMF for N = 10
Zipf PMF for N = 10 on a log–log scale. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.)
Cumulative distribution function
Plot of the Zipf CDF for N=10
Zipf CDF for N = 10. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.)
பண்பளவைகள்: s>1\, (மெய்)
N \in \{1,2,3\ldots\} (முழு எண்)
தாங்கி: k \in \{1,2,\ldots,N\}
pmf: \frac{1/k^s}{H_{N,s}}
cdf: \frac{H_{k,s}}{H_{N,s}}
சராசரி: \frac{H_{N,s-1}}{H_{N,s}}
இடைநிலையளவு:
முகடு: 1\,
variance:
கோணல்:
தட்டையளவு:
சிதறம்(என்ட்ரோப்பி): \frac{s}{H_{N,s}}\sum_{k=1}^N\frac{\ln(k)}{k^s}
+\ln(H_{N,s})
mgf: \frac{1}{H_{N,s}}\sum_{n=1}^N \frac{e^{nt}}{n^s}
cf: \frac{1}{H_{N,s}}\sum_{n=1}^N \frac{e^{int}}{n^s}

சிஃபுவின் விதி அல்லது இசுஃபு விதி (Zipf's law), என்பது கணிதப்புள்ளியியல் குறிப்புகளின்படி இயற்கையியல் அல்லது மொழியியல் போன்ற குமுகவியல் தரவுகளில் காணப்படும் ஒரு பகிர்வமைப்பில் (distribution) காணப்படும் ஒரு நடைமுறை விதி. ஒரு தரவுத்தொகுப்பில் காணப்படும் ஓர் உருப்படி அத்தரவுத்தொகுப்பில் எத்தனை தடவை வருகின்றது என்பதைக் கொண்டு வகுக்கப்பெறும் ஒரு விதிமுறை இது. அமெரிக்க மொழியியல் ஆய்வாளர் சியார்ச்சு கிங்கிசிலி சிஃபு ((1902–1950) (George Kingsley Zipf) என்பார் சொற்களின் வருகை எண்ணிக்கையைக் கொண்டு முதன்முதல் 1935, 1949 ஆகிய ஆண்டுகளில் முன்மொழிந்ததால் அவர் பெயரால் இவ்விதி வழங்கப்பெறுகின்றது. என்றாலும் இவரிடம் குறிப்பெடுப்பவராகவும் எழுத்தராகவும் பணியாற்றிய இழான் பாட்டீசு எசுத்தூப்பு (1868–1950) (Jean-Baptiste Estoup) என்பவர் சொற்கள் வருகை தடவையெண்ணிக்கையின் ஒழுக்கம் பற்றி உணர்ந்து குறிப்பிட்டாராம்.[1]. இந்த விதியை 1913 இல் இடாய்ச்சுலாந்து இயற்பியலாளர் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) என்பாரும் அறிந்திருந்தாராம்[2] (1856–1933).

இவ்விதி உருவானதின் பின்புலம்[தொகு]

சிஃபுவின் விதி என்ன சொல்லுகின்றது என்றால், இயற்கை மொழியின் மொழிவழக்குத் தொகுப்பு ஒன்றைக் கொண்டு, அதில் வரும் எந்தவொரு சொல்லும் எத்தனை முறை அத்தொகுப்பில் வருகின்றது என்று கணக்கிட்டு ஓர் அட்டவணையில் குறித்து வந்தால், எந்தவொரு சொல்லின் வருகையெணும் (வருகை தடவை-எண்ணிக்கை) அதன் வரிசையெண்ணுக்குத் (rank) (வருகையெண்படி வரிசைப்படுத்தப்பட்ட சொற்களின் வரிசை எண்) தலைகீழ் விகிதத்தில் (எதிர்மறையான வீதத்தில்) இருக்கும். மிக அதிகமான எண்ணிக்கையில் வரும் ஒரு சொல் அதற்கு அடுத்ததாக அதிக எண்ணிக்கையில் வரும் ஒரு சொல்லைவிட ஏறத்தாழ இரு மடங்கு கூடுதலான எண்ணிக்கையில் வரும்; இதே போல மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல்லைப்போல மூன்று மடங்கு அதிக எண்ணிக்கையில் வரும். இப்படியாகச் செல்லும் இந்த விதி. எடுத்துக்காட்டாக அமெரிக்க ஆங்கில மொழிவழக்குத் தொகுப்பாகிய பிரௌன் தொகுப்பில், ஆங்கிலச் சொல்லாகிய 'the' என்பது எல்லாச்சொற்களைக் காட்டிலும் கூடுதலான எண்ணிக்கையில் வரும் ஒரு சொல். இத்தொகுப்பில் உள்ள மொத்தச் சொற்களிலும் இது ஏறத்தாழ 7% அளவாக இருக்கின்றது. அதாவது பிரௌன் தொகுப்பில் உள்ள ஒரு மில்லியன் சொற்களுக்கும் கூடுதலாக உள்ள சொற்களில் இந்த 'the' என்னும் சொல் மட்டும் 69,971 முறை வருகின்றது. சிஃபு விதி சொல்வது போலவே அடுத்து அதிக எண்ணிக்கையில் வரும் 'of' என்னும் சொல் 3.5% உக்கும் சற்றே கூடுதலாகக் காணப்படுகின்றது. அதாவது 36,411 முறை வருகின்றது (வருகையெண் = 36,411). மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல் 'and' என்னும் சொல்லாகும். இது 28,852 முறை வருகின்றது. இந்த பிரௌன் தொகுப்பில் ஒரு மில்லியனுக்கும் கூடுதலான சொற்களில் வெறும் 135 சொற்களே ஏறத்தாழ சரிபாதியான எண்ணிக்கையிலான சொற்களாக உள்ளன.[3]

மொழியியல் சாராத பிற துறைகள் சிலவற்றிலும் இதே சார்புத்தன்மை காணப்படுகின்றது. எடுத்துக்காட்டாக பல்வேறு நாடுகளில் மக்கள் தொகையின் அடிப்படையிலான நகரத்தின் வரிசையெண்களைப் பார்த்தாலும் இவ்விதியைக்காணலாம். நகர மக்கள்தொகையின் அடிப்படையிலான விதியை முதன்முதலாக 1913 இல் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) குறிப்பிட்டார்.[2].

கருத்தியல் கொள்கை[தொகு]

ஒரு தரவுத்தொகுப்பை அலசும்பொழுது, அதில் உள்ள உருப்படிகளின் வருகையெண்ணிக்கையையும் (வருகையெண்), இதனடிப்படையில் வரிசைப்படுத்திய வரிசையெண் (rank) ஆகியவற்றை ஒரு மடக்கை-மடக்கை (log-log) வரைபடத்தில் குறித்தால் சிஃபுவின் விதியை எளிதாக அறியலாம். எடுத்துக்காட்டாக மேலே விளக்கியவாறு பிரௌன் மொழித்தொகுப்பில் வரும் "the" என்னும் சொல்லை (அதன் வரிசையெண்ணை) கிடை மடக்கை அச்சிலும், x = log(1) எனவும், அச்சொல்லின் வருகையெண்ணைக் குத்து மடக்கை அச்சிலும், y = log(69971 எனவும் இடவேண்டும். இப்படி மற்ற சொற்களையும் அவற்றின் வருகையெண்களையும் இந்த மடக்கை-மடக்கை வரைபடத்தில் பதிவிட்டால், அப்பதிவிட்ட புள்ளிகள் நேர்கோட்டில் அமைந்தால், தரவுகள் சிஃபு விதியின்படி அமைத்துள்ளது என்று உறுதி கொள்ளலாம்.

முறையாகக் கூறுவதென்றால், முதலில் கீழ்க்காணுமாறு கொள்ளுவோம்:

  • N உருப்படிகளின் எண்ணிக்கை;
  • k உருப்படிகளின் வரிசையெண்;
  • s உருப்படிகள் அமைந்த பகிர்வமைப்பின் குணத்தைக் காட்டும் மேலெண் அல்லது மடியெண் (exponent).

சிஃபுவின் விதி கூறுவது: N உருப்படிகளின் இடையே உருப்படிகளின் வரிசையெண் k ஆனது f(k,s,N) என்னும் சார்பில் அமைந்திருக்கும்:

f(k;s,N)=\frac{1/k^s}{\sum_{n=1}^N (1/n^s)}.

ஒரு தரவுத் தொகுப்பில் உள்ள ஒவ்வொரு உருப்படியும் அது வரும் எண்ணிக்கை (வருகையெண்) ஒன்றோடொன்று தொடர்பில்லாமல் இருப்பதாகக் கொண்டால், தொடர்பில்லாத் தனித்தனி சீருறா உருப்படிகளால் அமைந்த மடிவிதி (powerlaw)- p(f) {{=}}\alpha f^{-1-1/s} [4] - முறையின் அமைந்த ஒரு பகிர்வமைப்பில் உள்ளவை (distribution) சிஃபு விதியின்படி அமையும்.

மேலே குறிப்பிட்ட ஆங்கில மொழிவழக்குத் தரவு எடுத்துக்காட்டில், N என்பது அந்தத் தரவில் உள்ள சொற்களின் எண்ணிக்கை. மரபான சிஃபுவின் விதியைக் கொண்டால், மேலெண் அல்லது மடியெண் (exponent) s -இன் மதிப்பு 1 ஆகும். f(ks,N) என்பது வரிசைப்படி வரும் k-ஆவது எண் எந்த விகிதத்தில் வரும் என்பதைக் குறிக்கும்.

இந்த சிஃபுவின் விதியைக் கீழ்க்காணுமாறும் எழுதலாம்:

f(k;s,N)=\frac{1}{k^s H_{N,s}}

மேலுள்ளதில் HN,s என்பது பொதுமைப்படுத்தப்பட்ட N-ஆவது தலைகீழ் இயல் எண் (generalized harmonic number).

சிஃபுவின் விதியின் மிக எளிமையான விளக்கம் "1f சார்பியம்".

அடிக்குறிப்புகளும் மேற்கோள்களும்[தொகு]

  1. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
  2. 2.0 2.1 Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
  3. Fagan, Stephen; Gençay, Ramazan (2010), "An introduction to textual econometrics", in Ullah, Aman; Giles, David E. A., Handbook of Empirical Economics and Finance, CRC Press, pp. 133–153, ISBN 9781420070361 . P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."
  4. Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial"

மேலும் படிக்க[தொகு]

முதல் நிலை:

  • George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
  • George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (see citations at http://citeseer.ist.psu.edu/context/64879/0 )

இரண்டாம் நிலை:

International Conference on Bioinformatics Computational Biology: 2011.

வெளியிணைப்புகள்[தொகு]

"http://ta.wikipedia.org/w/index.php?title=சிஃபுவின்_விதி&oldid=1653887" இருந்து மீள்விக்கப்பட்டது