தரவுக்கணம்

கட்டற்ற கலைக்களஞ்சியமான விக்கிப்பீடியாவில் இருந்து.
தாவிச் செல்லவும்: வழிசெலுத்தல், தேடல்

தரவுக்கணம் அல்லது தரவுத் தொகுப்பு (Dataset) என்பது தரவுகளின் தொகுப்பு ஆகும். பொதுவாக ஒரு தரவுத்தளத்தில் அமைந்துள்ள அட்டவணையின் உள்ளடக்கத்தை குறிக்கும். அட்டவணையில் உள்ள ஒவ்வொரு பத்தியை(column) ஒரு குறிப்பிட்ட மாறி குறிக்கிறது, மற்றும் ஒவ்வொரு வரிசையும்(row) தரவில் உள்ள ஒரு குறிப்பிட்ட உறுப்பினரை ஒத்துள்ளது. தரவுக்கணம் என்பது தரவு பொருட்களின் தொகுப்பாகவும் கருதலாம். [1]

பண்புகள்[தொகு]

பொதுவாக நாம் தரவுக்கணத்தின் பண்புகளாக பின்வரும் மூன்றை குறிப்பிடலாம்:

பரிமானம் (Dimensionality)[தொகு]

பரிமானம் என்பது தரவுக்கணத்தில் உள்ள தரவுப் பொருள் எத்தனை இயற்பண்புகளை கொண்டுள்ளது என்பதை குறிக்கிறது.

ஸ்பார்சிட்டி (Sparsity)[தொகு]

ஸ்பார்சிட்டி என்பது தரவுகளில் பூஜ்யம் இல்லாத மதிப்புக்களின் எண்ணிக்கையை குறிக்கும். இது குறிப்பிடத்தக்க வகையில் கணக்கிடுதல் நேரத்தையும் சேமிப்பையும் மிச்சப்படுத்துகிறது.

நுணுக்கம் (Resolution)[தொகு]

தரவுக்கணத்தின் நுணுக்கத்தை பொறுத்து தரவின் பண்புகள் வேறுபடும்.தரவுக்கணத்தின் நுணுக்கம் கரடுமுரடனதாக இருந்தால் தரவின் அமைப்பை அறிய முடியாது.

தரவுக்கனத்தின் வகைகள்[தொகு]

பொது பயன்பாட்டு தரவுக்கனங்கள்[தொகு]

பொது பயன்பாட்டு தரவுக்கனங்களின் தொகுப்புகள் பொதுவாக ஆராய்ச்சி நோக்கங்களுக்காகவும், கற்பதற்காகவும் இலவசமாக கிடைக்கும் தரவுக்கனங்கள் ஆகும்.

மேற்கோள்கள்[தொகு]

  1. Introduction to Data Mining, Pang-Ning Tan | Vipin Kumar | Michel Steinbach, Pg. 22
  2. https://en.wikipedia.org/wiki/Iris_flower_data_set
  3. ftp://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders
"http://ta.wikipedia.org/w/index.php?title=தரவுக்கணம்&oldid=1554608" இருந்து மீள்விக்கப்பட்டது