Links

ভ্যারিয়েন্স ও স্ট্যান্ডার্ড ডেভিয়েশন

আমরা আগেই বলেছি ডাটা ডিস্ট্রিবিউশন করাকে স্প্রেড আউট করা বা ছড়িয়ে দেয়াও বলা যায়। সেক্ষেত্রে আমরা জানতে পেরেছি যে নরমালি ডিস্ট্রিবিউটেড ডাটা বা ডাটাকে নরমালি ডিস্ট্রিবিউট করার অনেক সুবিধা আছে। তো, সেই নরমালি ডিস্ট্রিবিউট করার পর যদি পর্যবেক্ষণ করি যে- ডাটা গুলো গড় মান থেকে কতটা ছড়ানো বা এর থেকে কত দুরে অবস্থিত সেক্ষেত্রে যে ফ্যাক্টরটি সম্বদ্ধে জানতে হবে সেটি হচ্ছে উক্ত ডিস্ট্রিবিউশনের ভ্যারিয়েন্স।
ভ্যারিয়েন্স হচ্ছে - উক্ত ডিস্ট্রিবিউশনের mean (গড়) মান থেকে প্রত্যেকটি এলিমেন্টের দূরত্বের বর্গের গড়। অর্থাৎ, উপরের sizes অ্যারের ভ্যারিয়েন্স বের করার জন্য আমরা নিচের ফর্মুলা ব্যবহার করতে পারি,
$$\begin{equation*} Variance, \, \sigma ^ 2 = \frac{\sum (x-\mu) ^ 2}{N} \end{equation*}$$
যেখানে
$x$
হচ্ছে এলিমেন্ট এবং
$\mu$
হচ্ছে গড়। আর
$N$
হচ্ছে মোট এলিমেন্ট সংখ্যা।
$$\begin{equation*} Variance = \frac{(1-11.19)^2 + (4-11.19)^2 + (5-11.19)^2 + (6-11.19)^2 ... (18-11.19)^2 + (20-11.19)^2}{36} \end{equation*}$$
আর, স্ট্যান্ডার্ড ডেভিয়েশন হচ্ছে ভ্যারিয়েন্স এর বর্গমূল,
$Standard \, Deviation = \sqrt{Variance}$
নিজে নিজে ক্যালকুলেশনটা করে দেখতে পারেন। আমি numpy এর std ফাংশন ব্যবহার করে তাড়াতাড়ি জেনে নেই স্ট্যান্ডার্ড ডেভিয়েশন কত,
np.std(sizes)
3.9144990061482714