சிஃபுவின் விதி
Probability mass function Zipf PMF for N = 10 on a log–log scale. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.) | |
Cumulative distribution function Zipf CDF for N = 10. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.) | |
பண்பளவைகள்: | (மெய்) (முழு எண்) |
---|---|
தாங்கி: | |
pmf: | |
cdf: | |
சராசரி: | |
இடைநிலையளவு: | |
முகடு: | |
variance: | |
கோணல்: | |
தட்டையளவு: | |
சிதறம்(என்ட்ரோப்பி): | |
mgf: | |
cf: |
சிஃபுவின் விதி அல்லது இசுஃபு விதி (Zipf's law), என்பது கணிதப்புள்ளியியல் குறிப்புகளின்படி இயற்கையியல் அல்லது மொழியியல் போன்ற குமுகவியல் தரவுகளில் காணப்படும் ஒரு பகிர்வமைப்பில் (distribution) காணப்படும் ஒரு நடைமுறை விதி. ஒரு தரவுத்தொகுப்பில் காணப்படும் ஓர் உருப்படி அத்தரவுத்தொகுப்பில் எத்தனை தடவை வருகின்றது என்பதைக் கொண்டு வகுக்கப்பெறும் ஒரு விதிமுறை இது. அமெரிக்க மொழியியல் ஆய்வாளர் சியார்ச்சு கிங்கிசிலி சிஃபு (1902–1950) (George Kingsley Zipf) என்பார் சொற்களின் வருகை எண்ணிக்கையைக் கொண்டு முதன்முதல் 1935, 1949 ஆகிய ஆண்டுகளில் முன்மொழிந்ததால் அவர் பெயரால் இவ்விதி வழங்கப்பெறுகின்றது. என்றாலும் இவரிடம் குறிப்பெடுப்பவராகவும் எழுத்தராகவும் பணியாற்றிய இழான் பாட்டீசு எசுத்தூப்பு (1868–1950) (Jean-Baptiste Estoup) என்பவர் சொற்கள் வருகை தடவையெண்ணிக்கையின் ஒழுக்கம் பற்றி உணர்ந்து குறிப்பிட்டாராம்.[1]. இந்த விதியை 1913 இல் இடாய்ச்சுலாந்து இயற்பியலாளர் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) என்பாரும் அறிந்திருந்தாராம்[2] (1856–1933).
இவ்விதி உருவானதின் பின்புலம்
[தொகு]சிஃபுவின் விதி என்ன சொல்லுகின்றது என்றால், இயற்கை மொழியின் மொழிவழக்குத் தொகுப்பு ஒன்றைக் கொண்டு, அதில் வரும் எந்தவொரு சொல்லும் எத்தனை முறை அத்தொகுப்பில் வருகின்றது என்று கணக்கிட்டு ஓர் அட்டவணையில் குறித்து வந்தால், எந்தவொரு சொல்லின் வருகையெணும் (வருகை தடவை-எண்ணிக்கை) அதன் வரிசையெண்ணுக்குத் (rank) (வருகையெண்படி வரிசைப்படுத்தப்பட்ட சொற்களின் வரிசை எண்) தலைகீழ் விகிதத்தில் (எதிர்மறையான வீதத்தில்) இருக்கும். மிக அதிகமான எண்ணிக்கையில் வரும் ஒரு சொல் அதற்கு அடுத்ததாக அதிக எண்ணிக்கையில் வரும் ஒரு சொல்லைவிட ஏறத்தாழ இரு மடங்கு கூடுதலான எண்ணிக்கையில் வரும்; இதே போல மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல்லைப்போல மூன்று மடங்கு அதிக எண்ணிக்கையில் வரும். இப்படியாகச் செல்லும் இந்த விதி. எடுத்துக்காட்டாக அமெரிக்க ஆங்கில மொழிவழக்குத் தொகுப்பாகிய பிரௌன் தொகுப்பில், ஆங்கிலச் சொல்லாகிய 'the' என்பது எல்லாச்சொற்களைக் காட்டிலும் கூடுதலான எண்ணிக்கையில் வரும் ஒரு சொல். இத்தொகுப்பில் உள்ள மொத்தச் சொற்களிலும் இது ஏறத்தாழ 7% அளவாக இருக்கின்றது. அதாவது பிரௌன் தொகுப்பில் உள்ள ஒரு மில்லியன் சொற்களுக்கும் கூடுதலாக உள்ள சொற்களில் இந்த 'the' என்னும் சொல் மட்டும் 69,971 முறை வருகின்றது. சிஃபு விதி சொல்வது போலவே அடுத்து அதிக எண்ணிக்கையில் வரும் 'of' என்னும் சொல் 3.5% உக்கும் சற்றே கூடுதலாகக் காணப்படுகின்றது. அதாவது 36,411 முறை வருகின்றது (வருகையெண் = 36,411). மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல் 'and' என்னும் சொல்லாகும். இது 28,852 முறை வருகின்றது. இந்த பிரௌன் தொகுப்பில் ஒரு மில்லியனுக்கும் கூடுதலான சொற்களில் வெறும் 135 சொற்களே ஏறத்தாழ சரிபாதியான எண்ணிக்கையிலான சொற்களாக உள்ளன.[3]
மொழியியல் சாராத பிற துறைகள் சிலவற்றிலும் இதே சார்புத்தன்மை காணப்படுகின்றது. எடுத்துக்காட்டாக பல்வேறு நாடுகளில் மக்கள் தொகையின் அடிப்படையிலான நகரத்தின் வரிசையெண்களைப் பார்த்தாலும் இவ்விதியைக்காணலாம். நகர மக்கள்தொகையின் அடிப்படையிலான விதியை முதன்முதலாக 1913 இல் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) குறிப்பிட்டார்.[2]
கருத்தியல் கொள்கை
[தொகு]ஒரு தரவுத்தொகுப்பை அலசும்பொழுது, அதில் உள்ள உருப்படிகளின் வருகையெண்ணிக்கையையும் (வருகையெண்), இதனடிப்படையில் வரிசைப்படுத்திய வரிசையெண் (rank) ஆகியவற்றை ஒரு மடக்கை-மடக்கை (log-log) வரைபடத்தில் குறித்தால் சிஃபுவின் விதியை எளிதாக அறியலாம். எடுத்துக்காட்டாக மேலே விளக்கியவாறு பிரௌன் மொழித்தொகுப்பில் வரும் "the" என்னும் சொல்லை (அதன் வரிசையெண்ணை) கிடை மடக்கை அச்சிலும், x = log(1) எனவும், அச்சொல்லின் வருகையெண்ணைக் குத்து மடக்கை அச்சிலும், y = log(69971 எனவும் இடவேண்டும். இப்படி மற்ற சொற்களையும் அவற்றின் வருகையெண்களையும் இந்த மடக்கை-மடக்கை வரைபடத்தில் பதிவிட்டால், அப்பதிவிட்ட புள்ளிகள் நேர்கோட்டில் அமைந்தால், தரவுகள் சிஃபு விதியின்படி அமைத்துள்ளது என்று உறுதி கொள்ளலாம்.
முறையாகக் கூறுவதென்றால், முதலில் கீழ்க்காணுமாறு கொள்ளுவோம்:
- N உருப்படிகளின் எண்ணிக்கை;
- k உருப்படிகளின் வரிசையெண்;
- s உருப்படிகள் அமைந்த பகிர்வமைப்பின் குணத்தைக் காட்டும் மேலெண் அல்லது மடியெண் (exponent).
சிஃபுவின் விதி கூறுவது: N உருப்படிகளின் இடையே உருப்படிகளின் வரிசையெண் k ஆனது என்னும் சார்பில் அமைந்திருக்கும்:
ஒரு தரவுத் தொகுப்பில் உள்ள ஒவ்வொரு உருப்படியும் அது வரும் எண்ணிக்கை (வருகையெண்) ஒன்றோடொன்று தொடர்பில்லாமல் இருப்பதாகக் கொண்டால், தொடர்பில்லாத் தனித்தனி சீருறா உருப்படிகளால் அமைந்த மடிவிதி (powerlaw)- [4] - முறையின் அமைந்த ஒரு பகிர்வமைப்பில் உள்ளவை (distribution) சிஃபு விதியின்படி அமையும்.
மேலே குறிப்பிட்ட ஆங்கில மொழிவழக்குத் தரவு எடுத்துக்காட்டில், N என்பது அந்தத் தரவில் உள்ள சொற்களின் எண்ணிக்கை. மரபான சிஃபுவின் விதியைக் கொண்டால், மேலெண் அல்லது மடியெண் (exponent) s -இன் மதிப்பு 1 ஆகும். f(k; s,N) என்பது வரிசைப்படி வரும் k-ஆவது எண் எந்த விகிதத்தில் வரும் என்பதைக் குறிக்கும்.
இந்த சிஃபுவின் விதியைக் கீழ்க்காணுமாறும் எழுதலாம்:
மேலுள்ளதில் HN,s என்பது பொதுமைப்படுத்தப்பட்ட N-ஆவது தலைகீழ் இயல் எண் (generalized harmonic number).
சிஃபுவின் விதியின் மிக எளிமையான விளக்கம் "1⁄f சார்பியம்".
அடிக்குறிப்புகளும் மேற்கோள்களும்
[தொகு]- ↑ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), பன்னாட்டுத் தரப்புத்தக எண் 978-0-262-13360-9, p. 24
- ↑ 2.0 2.1 Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
- ↑ Fagan, Stephen; Gençay, Ramazan (2010), "An introduction to textual econometrics", in Ullah, Aman; Giles, David E. A. (eds.), Handbook of Empirical Economics and Finance, CRC Press, pp. 133–153, பன்னாட்டுத் தரப்புத்தக எண் 9781420070361. P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."
- ↑ Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" பரணிடப்பட்டது 2007-10-26 at the வந்தவழி இயந்திரம்
மேலும் படிக்க
[தொகு]முதல் நிலை:
- George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
- George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (see citations at http://citeseer.ist.psu.edu/context/64879/0 )
இரண்டாம் நிலை:
- Lada Adamic. Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html பரணிடப்பட்டது 2007-10-26 at the வந்தவழி இயந்திரம்
- Alexander Gelbukh and Grigori Sidorov (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, பன்னாட்டுத் தரப்புத்தக எண் 3-540-41687-0, Springer-Verlag: 332–335.
- Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
- Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
- Gabaix, Xavier (August 1999). "Zipf's Law for Cities: An Explanation". Quarterly Journal of Economics 114 (3): 739–67. doi:10.1162/003355399556133. பன்னாட்டுத் தர தொடர் எண்:0033-5533. http://pages.stern.nyu.edu/~xgabaix/papers/zipf.pdf.
- Axtell, Robert L; Zipf distribution of US firm sizes, Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science
- Ramu Chenna, Toby Gibson; Evaluation of the Suitability of a Zipfian Gap Model for Pairwise Sequence Alignment,
International Conference on Bioinformatics Computational Biology: 2011.
வெளியிணைப்புகள்
[தொகு]- Steven, Strogatz (2009-05-29). "Guest Column: Math and the City". The New York Times இம் மூலத்தில் இருந்து 2015-09-27 அன்று. பரணிடப்பட்டது.. https://web.archive.org/web/20150927204318/http://judson.blogs.nytimes.com/2009/05/19/math-and-the-city/. பார்த்த நாள்: 2009-05-29—An article on Zipf's law applied to city populations
- Seeing Around Corners (Artificial societies turn up Zipf's law)
- PlanetMath article on Zipf's law பரணிடப்பட்டது 2002-10-18 at the வந்தவழி இயந்திரம்
- Distributions de type "fractal parabolique" dans la Nature (French, with English summary) பரணிடப்பட்டது 2004-10-24 at the வந்தவழி இயந்திரம்
- An analysis of income distribution
- Zipf List of French words பரணிடப்பட்டது 2007-06-23 at the வந்தவழி இயந்திரம்
- Zipf list for English, French, Spanish, Italian, Swedish, Icelandic, Latin, Portuguese and Finnish from Gutenberg Project and online calculator to rank words in texts பரணிடப்பட்டது 2011-04-08 at the வந்தவழி இயந்திரம்
- Citations and the Zipf–Mandelbrot's law
- Zipf's Law for U.S. Cities by Fiona Maclachlan, Wolfram Demonstrations Project.
- Weisstein, Eric W., "Zipf's Law", MathWorld.
- Zipf's Law examples and modelling (1985)
- Complex systems: Unzipping Zipf's law (2011)
- Benford’s law, Zipf’s law, and the Pareto distribution by Terence Tao.