বাংলায় ব্যাসিক ডাটা সায়েন্স শেখার কোর্স
  • ভূমিকা
  • ডাটা কি
  • ডাটা মাইনিং
  • প্রয়োজনীয় সেটআপ
  • গড়, মধ্যক, প্রচুরক
  • নরমাল ডিস্ট্রিবিউশন
  • ভ্যারিয়েন্স ও স্ট্যান্ডার্ড ডেভিয়েশন
    • এর উপকার
    • স্ট্যান্ডার্ডাইজেশন
  • বেশি ডাটা নিয়ে কাজ
    • পপুলেশন ও স্যাম্পল
  • সম্ভাব্যতা
  • পারসেন্টাইল ও মোমেন্ট
  • কো-ভ্যারিয়েন্স ও কো-রিলেশন
  • কন্ডিশনাল প্রোব্যাবিলিটি
  • Bayes থিওরেম
  • লিনিয়ার অ্যালজেবরা
  • মাল্টি-ভ্যারিয়েবল ক্যালকুলাস
  • মডেলিং
    • লিনিয়ার রিগ্রেসন
    • পলিনোমিয়াল রিগ্রেসন
  • ডাটা ভিজুয়ালাইজেশন
Powered by GitBook
On this page

ডাটা মাইনিং

এতদিন শুনেছেন খনি খুরে শুধু দামি দামি জিনিসপত্র তুলে আনা হয়। তাই মাইনিং মানেই মনে হয় যে - অনেক মূল্যবান সম্পদ আহরণের কথা বলা হচ্ছে। বাস্তবে যেমন সাধারণ দেখতে একটা মরুভূমির অতল গহিনে জমে থাকতে পারে তেল, কয়লা, সোনা সহ আরও নানা রকম মহা মূল্যবান জিনিষ পত্র। তেমনি অগোছালো ডাটার মধ্যেও লুকিয়ে থাকতে পারে খুবি মূল্যবান কোন তথ্য। তাই এই বিজ্ঞানে এটাকেও মাইনিং বলা হয়।

ডাটা সায়েন্স এর সাথে ডাটা মাইনিং ওতপ্রোতভাবে জড়িত এবং একটা আরেকটার পরিপূরক। তাই এই অবস্থায় ডাটা মাইনিং এর প্রসঙ্গ নিয়ে আসা।

যাই হোক, ডাটা মাইনিং এর পুঁথিগত সংজ্ঞা হচ্ছে এরকম - "Extraction of interesting (non‐trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data."

বুঝতে পারছি :)

এর অনেক বিকল্প নামও থাকতে পারে যেগুলো শুনে ঘাবড়ানোর কিছু নাই। যেমন - Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence ইত্যাদি। এখন বুঝলেন তো? সব হচ্ছে নামের বাহার। ঘটনা তেমন কিছু না।

KDD বা নলেজ ডিসকভারি প্রসেস

এই প্রসেসের কিছু গুরুত্ব পূর্ণ ধাপের বর্ণনা নিচে দেয়া হল -

প্রথমেই কোন ডাটাবেইজ থেকে ডাটা উদ্ধার করা হবে -> অতঃপর সেই ডাটা গুলোকে ক্লিন করা হবে অর্থাৎ ডাটার মধ্যেকার ভুল, মিসিং ডাটা ইত্যাদি ঠিক ঠাক করা হবে -> এরপর সেই পরিষ্কার ডাটা কে ডাটা অয়্যারহাউজে জমা করা হবে অর্থাৎ যেখান থেকে পরবর্তী ধাপে ব্যবহার করা যাবে -> এরপর ওই ডাটা স্টোর থেকে শুধুমাত্র আমাদের উদ্দেশ্য সাধনের প্রেক্ষিতে যে ডাটা গুলো লাগবে সেগুলোকে বেছে নেয়া হবে যাকে বলে টাস্ক রেলিভেন্ট ডাটা বেছে নেয়া -> এরপর বস্তুত ডাটা মাইনিং ঘটে বিভিন্ন অ্যালগরিদম বা টেকনিকের মাধ্যমে -> শেষে যে প্যাটার্ন বা মূল্যবান তথ্য পাওয়া যাবে সেটাকে এভালুয়েট বা বিচার/পর্যবেক্ষণ করা হবে

কি করছি ডাটার ভিউ মানে হচ্ছে - কি ডাটা নিয়ে কাজ করছি তা ঠিক থাকতে হবে, কি নলেজ (সম্পদ) উদ্ধার করার জন্য কাজে নামলাম সেটা ঠিক থাকতে হবে, কি টেকনিক আপ্লাই করে এই কর্ম সম্পাদন করা হবে তাও ঠিক রাখতে হবে এবং কোন সেক্টরে এই উদ্ধারকৃত সম্পদ কাজে লাগানো হবে সেটাও পরিষ্কার থাকতে হবে।

ডাটা মাইনিং ফাংশন ১) জেনারেলাইজেশন - ডাটা ক্লিনিং, ট্রান্সফরমেশন, ইন্টিগ্রেশন বা ডাটা অয়্যারহাউজ তৈরি ইত্যাদি কাজ ২) প্যাটার্ন ডিসকভারি ৩) ক্লাসিফিকেশন ৪) ক্লাস্টার অ্যানালাইসিস ৫) আউটলায়ার এনালাইসিস ৬) টাইম ও অর্ডারিং ৭) স্ট্রাকচার এনালাইসিস

Previousডাটা কিNextপ্রয়োজনীয় সেটআপ

Last updated 6 years ago