বাংলায় ব্যাসিক ডাটা সায়েন্স শেখার কোর্স
  • ভূমিকা
  • ডাটা কি
  • ডাটা মাইনিং
  • প্রয়োজনীয় সেটআপ
  • গড়, মধ্যক, প্রচুরক
  • নরমাল ডিস্ট্রিবিউশন
  • ভ্যারিয়েন্স ও স্ট্যান্ডার্ড ডেভিয়েশন
    • এর উপকার
    • স্ট্যান্ডার্ডাইজেশন
  • বেশি ডাটা নিয়ে কাজ
    • পপুলেশন ও স্যাম্পল
  • সম্ভাব্যতা
  • পারসেন্টাইল ও মোমেন্ট
  • কো-ভ্যারিয়েন্স ও কো-রিলেশন
  • কন্ডিশনাল প্রোব্যাবিলিটি
  • Bayes থিওরেম
  • লিনিয়ার অ্যালজেবরা
  • মাল্টি-ভ্যারিয়েবল ক্যালকুলাস
  • মডেলিং
    • লিনিয়ার রিগ্রেসন
    • পলিনোমিয়াল রিগ্রেসন
  • ডাটা ভিজুয়ালাইজেশন
Powered by GitBook
On this page

গড়, মধ্যক, প্রচুরক

Previousপ্রয়োজনীয় সেটআপNextনরমাল ডিস্ট্রিবিউশন

Last updated 4 years ago

mean কে অনেকেই গড় নামেই চিনে থাকবেন। খুব সহজ - যতগুলো এলিমেন্ট নিয়ে কাজ করা হচ্ছে সেগুলোর যোগফলকে মোট এলিমেন্ট সংখ্যা দিয়ে ভাগ করলেই গড় পাওয়া যায়।

a = np.array([10, 5, 12, 3])
np.mean(a)
7.5

অর্থাৎ,

a = np.array([[1, 2], [3, 4]])
np.mean(a, axis=1)
array([ 1.5,  3.5])

অর্থাৎ, প্রথমে 1 ও 2 এর গড় এবং তারপর 3 ও 4 এর গড় করে আরেকটা অ্যারে তে জমা করা হয়েছে। numpy ব্যবহার না করলে এখানে লুপ, যোগ, ভাগ সহ বেশ কিছু কোড লিখতে হত।

median বা মধ্যক হচ্ছে কিছু ক্রমানুসারে সাজানো এলিমেণ্টের মাঝখানের ভ্যালুটি অথবা মাঝখানে একাধিক ভ্যালু হলে তাদের সাধারণ গড় মানটি

a = np.array([10, 14, 4, 7, 9, 12, 15])
np.median(a)              # 4, 7, 9, 10, 12, 14, 15. এখানে 10 median
10.0

উপরের অ্যারের mean -ও বের করে দেখি,

a = np.array([10, 14, 4, 7, 9, 12, 15])
np.mean(a)
10.142857142857142

mode বা প্রচুরক হচ্ছে কোন ডাটা কালেকশনে যে এলিমেন্টটি সবচেয়ে বেশি সংখ্যক বার থাকে সেটা

Mode কে বলা যেতে পারে সর্বাধিক জ্নপ্রিয় অপশন। নিচের কালেকশনটি লক্ষ করুন, ১০ জন লোক বাড়ি ফিরতে কোন পরিবহন ব্যাবহার করে সেটা দেয়া আছে। transport= {Bus, Train, Car, Bus, Bus, Tram, Car, Bus, Tram, Bus} এখানে সবচেয়ে কমন পরিবহন হচ্ছে বাস। সবচেয়ে বেশি সংখ্যক (৫ জন) মানুষ বাস ব্যাবহার করে। অ্থাৎ এখানে Mode= Bus

from scipy import stats # এটি আরেকটি প্রয়োজনীয় লাইব্রেরী
a = np.array([10, 14, 4, 7, 9, 12, 4, 15]) # 4 এর উপস্থিতি বেশি
stats.mode(a)
ModeResult(mode=array([4]), count=array([2]))

mean থাকতে আবার median কেন?

মাঝে মাঝে কোন একটা ডাটা সেটের mean তার সঠিক/বাস্তবিক গড় প্রকাশ করে না। যেমন - নিচে কিছু লোকের বয়সের একটা অ্যারে আছে এবং এর mean এসেছে 33.84. এটা যথেষ্ট লজিক্যাল একটা ভিউ দিচ্ছে ডাটা সেট সম্পর্কে।

ages = np.array([30, 30, 30, 20, 20, 45, 35, 35, 30, 40, 40, 40, 45])
np.mean(ages)
33.846153846153847

কিন্তু ধরা যাক, সেই ডাটা সেটের মধ্যে একজন মাত্র অতিবৃদ্ধ লোকের বয়স যুক্ত করা হল যার বয়স 120 বছর। এতে করেই এই ডাটা সেটের mean বেড়ে গিয়ে হয়ে গেলো 40 যা একদমই এই সেটের বাস্তবিক গ্রহণযোগ্য ভিউকে রীতিমত বদলে ফেলেছে।

ages = np.array([30, 30, 30, 20, 20, 45, 35, 35, 30, 40, 40, 40, 45, 120])
np.mean(ages)
40.0

আবার এই অবস্থাতেও উক্ত সেটের median আসছে 35 অর্থাৎ একটা অসঙ্গতি পূর্ণ ডাটা এলিমেন্ট যুক্ত হবার পরেও median দিয়ে গড়ের একটা সঠিক ওভারভিউ পাওয়া যাচ্ছে। এরকম ক্ষেত্রে median উপকারী।

ages = np.array([30, 30, 30, 20, 20, 45, 35, 35, 30, 40, 40, 40, 45, 120])
np.median(ages)
35.0
$\frac{10+5+12+3}{4} = 7.5$