Wartości odstające to obserwowane punkty danych, które znajdują się daleko od linii najmniejszych kwadratów. Mają nietypowe wartości i należy je dokładnie zbadać. Chociaż wartość odstająca może wynikać z błędnych danych, w innych przypadkach może zawierać cenne informacje o badanej populacji i powinna zostać uwzględniona w danych. W związku z tym ważne jest, aby zbadać, co powoduje, że punkt danych jest wartością odstającą.
Wskaźnik z służy do znajdowania wartości odstających lub nietypowych wartości. Należy zauważyć, że wszelkie wartości wykraczające poza -2 i +2 są uważane za wartości nietypowe lub odstające i są daleko od innych wartości danych.
Identyfikowanie wartości odstających
Możemy odgadnąć wartości odstające, patrząc na wykres rozrzutu i wykres najlepszego dopasowania. Potrzebowalibyśmy jednak wytycznych, aby zrozumieć, jak daleko musi znajdować się punkt, aby można go było uznać za wartość odstającą. Z grubsza rzecz biorąc, każdy punkt, który przekracza dwa odchylenia standardowe powyżej lub poniżej linii najlepszego dopasowania, możemy oznaczyć jako wartość odstającą. Stosowane odchylenie standardowe jest odchyleniem standardowym reszt lub błędów.
Możemy to zrobić wizualnie na wykresie punktowym, rysując dodatkową parę linii, które są dwoma odchyleniami standardowymi powyżej i poniżej linii o najlepszym dopasowaniu. Wszystkie punkty danych znajdujące się poza tą dodatkową parą linii są oznaczane jako potencjalne wartości odstające. Dodatkowo możemy numerycznie zidentyfikować wartości odstające, obliczając każdą resztę i porównując ją z dwukrotnością odchylenia standardowego.
Ten tekst został zaadaptowany z Openstax, Introductory Statistics, Section 12.5 Outliers
Wartości odstające to co najmniej jedna wartość w zestawie danych, która wyróżnia się na tle innych.
Na przykład pięć najlepszych koni jest wybieranych na podstawie ich średniego czasu okrążenia. Nietypowy czas okrążenia, albo zbyt dobry, albo zbyt słaby, jest uważany za wartość odstającą.
Ale jak można zidentyfikować wartości odstające z dużego zbioru danych?
Jednym ze sposobów jest znalezienie rozstępu międzykwartylowego. Wartości powyżej lub poniżej 1,5-krotności IQR są uważane za wartości odstające.
Druga metoda wykorzystuje wyniki z. Wartości w zakresach minus dwa i plus dwa z są ogólnie uważane za zwykłe wartości, obejmujące około 95% wartości danych. Wszystko, co wykracza poza ten zakres, jest wartością odstającą.
Trzecią metodą jest użycie wykresów skrzynkowych. Każdy punkt danych, który znajduje się poza wąsami wykresu pudełkowego, jest uważany za wartość odstającą.
Wartości odstające mogą wpływać na średnią, odchylenie standardowe i zakres danych, ale niektóre wartości odstające można zignorować bez wpływu na statystykę próby. W związku z tym należy starannie rozważyć uwzględnienie wartości odstających w obliczeniach lub ich przycięcie.
Related Videos
Measures of Relative Standing
7.1K Wyświetlenia
Measures of Relative Standing
9.3K Wyświetlenia
Measures of Relative Standing
9.5K Wyświetlenia
Measures of Relative Standing
6.6K Wyświetlenia
Measures of Relative Standing
4.2K Wyświetlenia
Measures of Relative Standing
4.3K Wyświetlenia
Measures of Relative Standing
8.1K Wyświetlenia
Measures of Relative Standing
3.8K Wyświetlenia
Measures of Relative Standing
9.4K Wyświetlenia