Как (и защо) да използвате функцията Outliers в Excel

Отклонение е стойност, която е значително по-висока или по-ниска от повечето стойности във вашите данни. Когато използвате Excel за анализиране на данни, отклоненията могат да изкривят резултатите. Например средната средна стойност на набор от данни може наистина да отразява вашите стойности. Excel предоставя няколко полезни функции, за да ви помогне да управлявате отклоненията си, така че нека да разгледаме.

Бърз пример

На изображението по-долу отклоненията са сравнително лесни за забелязване — стойността на две, приписана на Ерик, и стойността на 173, присвоена на Райън. В набор от данни като този е достатъчно лесно да забележите и да се справите с тези отклонения ръчно.

При по-голям набор от данни това няма да е така. Възможността да се идентифицират отклоненията и да се премахнат от статистическите изчисления е важно – и това е, което ще разгледаме как да направим в тази статия.

  6 най-добри алтернативи на OpManager за наблюдение и управление на мрежата

Как да намерите отклонения във вашите данни

За да намерим отклоненията в набор от данни, използваме следните стъпки:

Изчислете 1-ви и 3-ти квартил (ще говорим за това какви са те след малко).
Оценете интерквартилния диапазон (ние също ще ги обясним малко по-надолу).
Върнете горната и долната граница на нашия диапазон от данни.
Използвайте тези граници, за да идентифицирате отдалечените точки от данни.

Диапазонът от клетки вдясно от набора от данни, който се вижда на изображението по-долу, ще се използва за съхраняване на тези стойности.

Да започваме.

Първа стъпка: Изчислете квартилите

Ако разделите данните си на тримесечия, всеки от тези набори се нарича квартил. Най-ниските 25% от числата в диапазона съставляват 1-вия квартил, следващите 25% 2-рия квартил и т.н. Ние предприемаме тази стъпка първо, защото най-широко използваната дефиниция за отклонение е точка от данни, която е с повече от 1,5 интерквартилни диапазони (IQRs) под 1-вия квартил и 1,5 интерквартилни диапазони над 3-тия квартил. За да определим тези стойности, първо трябва да разберем какви са квартилите.

Excel предоставя функция QUARTILE за изчисляване на квартили. Тя изисква две части от информация: масив и кварта.

=QUARTILE(array, quart)

Масивът е диапазонът от стойности, които оценявате. А квартила е число, което представлява квартила, който искате да върнете (напр. 1 за 1-вия квартил, 2 за 2-рия квартил и т.н.).

  Как да използвате вашия iPhone по време на телефонно обаждане

Забележка: В Excel 2010 Microsoft пусна функциите QUARTILE.INC и QUARTILE.EXC като подобрения на функцията QUARTILE. QUARTILE е по-обратно съвместим, когато работите с множество версии на Excel.

Нека се върнем към нашата примерна таблица.

За да изчислим 1-вия квартил, можем да използваме следната формула в клетка F2.

=QUARTILE(B2:B14,1)

Докато въвеждате формулата, Excel предоставя списък с опции за аргумента quart.

За да изчислим 3-тия квартил, можем да въведем формула като предишната в клетка F3, но използвайки тройка вместо единица.

=QUARTILE(B2:B14,3)

Сега имаме квартилните точки от данни, показани в клетките.

Стъпка втора: Оценете интерквартилния диапазон

Интерквартилният диапазон (или IQR) е средните 50% от стойностите във вашите данни. Изчислява се като разлика между стойността на 1-ви квартил и стойността на 3-ти квартил.

Ще използваме проста формула в клетка F4, която изважда 1-вия квартил от 3-тия квартил:

=F3-F2

Сега можем да видим нашия интерквартилен диапазон.

Стъпка трета: Върнете долната и горната граница

Долната и горната граница са най-малките и най-големите стойности на диапазона от данни, които искаме да използваме. Всички стойности, по-малки или по-големи от тези обвързани стойности, са извънредните стойности.

Ще изчислим долната граница в клетка F5, като умножим стойността на IQR по 1,5 и след това я извадим от точката с данни Q1:

=F2-(1.5*F4)

Забележка: Скобите в тази формула не са необходими, защото частта за умножение ще се изчисли преди частта за изваждане, но правят формулата по-лесна за четене.

  Alexa, Siri и Google не разбират дума, която казвате

За да изчислим горната граница в клетка F6, ще умножим IQR отново по 1,5, но този път ще го добавим към точката от данни Q3:

=F3+(1.5*F4)

Стъпка четвърта: Идентифицирайте отклоненията

Сега, когато имаме настроени всички наши основни данни, е време да идентифицираме нашите отдалечени точки от данни – тези, които са по-ниски от стойността на долната граница или по-висока от стойността на горната граница.

Ще използваме ИЛИ функция за да извършите този логически тест и да покажете стойностите, които отговарят на тези критерии, като въведете следната формула в клетка C2:

=OR(B2$F$6)

След това ще копираме тази стойност в нашите клетки C3-C14. Стойността TRUE показва отклонение и както можете да видите, имаме две в нашите данни.

Игнориране на извънредните стойности при изчисляване на средната средна стойност

Използвайки функцията QUARTILE, ни позволява да изчислим IQR и да работим с най-широко използваната дефиниция на отклонение. Въпреки това, когато се изчислява средната стойност за диапазон от стойности и се игнорират отклонения, има по-бърза и лесна за използване функция. Тази техника няма да идентифицира извънредно, както преди, но ще ни позволи да бъдем гъвкави с това, което бихме могли да считаме за нашата извънредна част.

Функцията, от която се нуждаем, се нарича TRIMMEAN и можете да видите синтаксиса за нея по-долу:

=TRIMMEAN(array, percent)

Масивът е диапазонът от стойности, които искате да осредните. Процентът е процентът точки от данни, които трябва да се изключат от горната и долната част на набора от данни (можете да го въведете като процент или десетична стойност).

Въведохме формулата по-долу в клетка D3 в нашия пример, за да изчислим средната стойност и да изключим 20% от отклоненията.

=TRIMMEAN(B2:B14, 20%)

Там имате две различни функции за работа с отклонения. Независимо дали искате да ги идентифицирате за някои нужди за отчитане или да ги изключите от изчисления като средни стойности, Excel има функция, която да отговаря на вашите нужди.