एक बाहरी अवलोकन डेटा है जो एक नमूने में अन्य अवलोकनों से संख्यात्मक रूप से काफी भिन्न होता है। इस शब्द का प्रयोग सांख्यिकीय अध्ययनों में किया जाता है और यह डेटासेट में असामान्यताओं या प्रदर्शन किए गए माप में त्रुटियों को इंगित कर सकता है। डेटा की उचित समझ सुनिश्चित करने के लिए आउटलेर्स की गणना करने का तरीका जानना महत्वपूर्ण है और इससे अध्ययन से अधिक सटीक निष्कर्ष निकलेगा। दिए गए प्रेक्षणों के समुच्चय के लिए उनकी गणना करने की एक बहुत ही सरल प्रक्रिया है।
कदम
चरण 1. एक संभावित बाहरी को पहचानना सीखें।
यह गणना करने से पहले कि अवलोकन संबंधी डेटा एक बाहरी का प्रतिनिधित्व करता है या नहीं, डेटासेट की जांच करना और संभावित आउटलेर्स को पहचानना हमेशा उपयोगी होता है। उदाहरण के लिए, एक डेटासेट पर विचार करें जो एक कमरे में 12 विभिन्न वस्तुओं के तापमान का प्रतिनिधित्व करता है। यदि 11 वस्तुओं का तापमान लगभग 21 डिग्री सेल्सियस है, लेकिन बारहवें (शायद एक ओवन) का तापमान 150 डिग्री सेल्सियस है, तो एक त्वरित जांच यह कह सकती है कि ओवन एक बाहरी है।
चरण 2. अवलोकन संबंधी डेटा को सबसे छोटे से सबसे बड़े तक व्यवस्थित करें।
उपरोक्त उदाहरण को जारी रखते हुए, विभिन्न वस्तुओं के तापमान का प्रतिनिधित्व करने वाले निम्नलिखित डेटासेट पर विचार करें: {22, 21, 24, 21, 21, 20, 21, 23, 22, 150, 22, 20}। इस सेट को इस प्रकार वितरित किया जाना चाहिए: {20, 20, 21, 21, 21, 21, 22, 22, 22, 23, 24, 150}।
चरण 3. डेटासेट के माध्यिका की गणना करें।
माध्यिका डेटा के निचले आधे भाग के ऊपर और शीर्ष आधे के नीचे स्थित अवलोकन संबंधी डेटा है। यदि डेटासेट में सम संख्या में प्रेक्षण हैं, तो दो मध्य पदों को अवश्य निकाल देना चाहिए। ऊपर के उदाहरण में, दो मध्य पद 21 और 22 हैं, इसलिए माध्यिका ((21 + 22) / 2), या 21, 5 है।
चरण 4. नीचे चतुर्थक की गणना करें।
यह बिंदु, जिसे Q1 कहा जाता है, अवलोकन के 25% से नीचे स्थित अवलोकन संबंधी डेटा है। ऊपर के उदाहरण में, दो पदों को फिर से गुणा करना होगा, इस बार 21 और 21। दोनों का औसत ((21 + 21) / 2), या 21 होगा।
चरण 5. शीर्ष चतुर्थक की गणना करें।
यह बिंदु, जिसे Q3 कहा जाता है, अवलोकन के 25% से ऊपर स्थित अवलोकन संबंधी डेटा है। हमारे उदाहरण के साथ जारी रखते हुए, दो पासों का औसत 22 और 23 लेने पर Q3 प्राप्त होता है, जो 22, 5 है।
चरण 6. डेटासेट की "आंतरिक बाधाएं" खोजें।
पहला कदम Q1 और Q3 (इंटरक्वेर्टाइल रेंज कहा जाता है) के बीच के अंतर को 1.5 से गुणा करना है। ऊपर के उदाहरण में, इंटरक्वेर्टाइल रेंज (22, 5 - 21), यानी 1, 5 है। इस मान को 1 से गुणा करें।, 5 2, 25 देता है। इस संख्या को Q3 में जोड़ें और अवरोधों को बनाने के लिए Q1 से घटाएं। इस उदाहरण में, ऊपर और नीचे की आंतरिक बाधाएं 24, 75 और 18, 75 होंगी।
इस सीमा से बाहर के सभी अवलोकन संबंधी डेटा को मध्यम आउटलेयर माना जाता है। इस उदाहरण के लिए डेटासेट में, केवल ओवन तापमान (150°C) को मध्यम बाहरी माना जाता है।
चरण 7. डेटासेट की "बाहरी बाधाओं" का पता लगाएं।
यह उसी तरह से किया जाता है जैसे आंतरिक बाधाओं के लिए, सिवाय इसके कि इंटरक्वेर्टाइल रेंज को 1.5 के बजाय 3 से गुणा किया जाता है। उपरोक्त इंटरक्वेर्टाइल रेंज को 3 से गुणा करने पर, हमें मिलता है (1, 5 * 3), या 4, 5। इस प्रकार, ऊपरी और निचले बाहरी अवरोध 27 और 16, 5 हैं।