У світі, де числа розповідають історії про зарплати, ціни на квартири чи результати медичних досліджень, медіана стоїть як надійний компас. Вона просто бере упорядкований ряд даних і знаходить значення посередині, розділяючи половину менших і половину більших. Для набору з п’яти чисел 1, 3, 5, 7, 9 медіана дорівнює 5 – чиста середина без впливу крайнощів. А в парному випадку, скажімо 2, 4, 6, 8, медіана – це (4+6)/2 = 5. Така простота робить її незамінною, коли звичайне середнє спотворюється викидами.
Чому це круто? Бо в реальному житті дані рідко ідеальні. Зарплати розробників в Україні взимку 2026 року сягають медіани $3450 – половина заробляє менше, половина більше, і жоден топ-менеджер з $20k не зруйнує картину. Це не просто число, а реальний зріз типового рівня, що допомагає приймати рішення.
Розберемося глибше, бо медіана – не просто інструмент для шкільних задачок, а потужна зброя аналітиків, від економістів до дата-сайентистів.
Що таке медіана: точне визначення та суть
Медіана в статистиці – це значення, яке посередині ранжованого (упорядкованого) ряду даних. Вона ділить сукупність на дві рівні частини: 50% спостережень нижче неї, 50% – вище. Позначається як Me або \(\tilde{x}\). На відміну від середнього арифметичного, яке сумує все і ділить на кількість, медіана ігнорує екстремуми.
Формально, для вибірки з n елементів, упорядкованої \(x_1 \leq x_2 \leq \dots \leq x_n\):
- Якщо n непарне, Me = \(x_{(n+1)/2}\).
- Якщо n парне, Me = \(\frac{x_{n/2} + x_{n/2 + 1}}{2}\).
Цей підхід робить медіану робастною – стійкою до викидів. Уявіть продаж автомобілів: ціни 200k, 210k, 220k, 230k, 5млн грн (рідкісний екзот). Середнє ~1млн, медіана 220k – набагато чесніше відображає ринок.
У теорії ймовірностей медіана розподілу – число m, де \(P(X \leq m) \geq 0.5\) і \(P(X \geq m) \geq 0.5\). Для нормального розподілу збігається з середнім, для скошених – ні.
Як обчислювати медіану: покрокові приклади для новачків
Обчислення починається з сортування. Візьмемо реальний приклад: доходи фрілансерів за місяць (грн): 15k, 30k, 50k, 80k, 120k, 200k, 500k. Сортуємо: 15k, 30k, 50k, 80k, 120k, 200k, 500k. n=7 (непарне), медіана – 4-те значення, 80k. Половина заробила менше, половина більше.
Парний випадок: додамо 90k. Ряд: 15k, 30k, 50k, 80k, 90k, 120k, 200k, 500k. n=8, медіана = (80k + 90k)/2 = 85k. Легко, правда?
- Зберіть дані в список.
- Упорядкуйте за зростанням.
- Знайдіть позицію: для n=10 – 5.5-та, середнє 5-го і 6-го.
- Обчисліть.
У Excel чи Google Sheets – просто: =MEDIAN(A1:A10). Функція автоматично сортує і знаходить середу. Для умовної: =MEDIAN(IF(умова, діапазон)) з Ctrl+Shift+Enter в Excel.
Ці кроки працюють для будь-яких числових даних, від температур до продажів.
Медіана проти середнього та моди: таблиця порівняння
Щоб зрозуміти, коли медіана краща, порівняймо три міри центральної тенденції. Ось таблиця для набору без викидів і з ними.
| Набір даних | Середнє | Медіана | Мода |
|---|---|---|---|
| 1, 2, 3, 4, 5 | 3 | 3 | немає |
| 1, 2, 3, 4, 100 | 22 | 3 | немає |
| 2, 2, 3, 4, 5 | 3.2 | 3 | 2 |
Дані з uk.wikipedia.org. Бачиш? Викид 100 спотворює середнє, медіана тримається. Мода – найчастіше значення, корисна для категорій (наприклад, найпопулярніший колір авто).
Вибір: середнє для симетричних даних, медіана для скошених чи з викидами, мода для номінальних.
Медіана для групованих даних: формула та практика
Коли дані згруповані (інтервали), медіана в медіанному інтервалі. Формула: \(Me = L + \frac{(N/2 – C_f)}{f_m} \cdot h\), де L – нижня границя медіанного інтервалу, N – загальна кількість, C_f – кумулятивна частота до нього, f_m – частота інтервалу, h – ширина.
Приклад: розподіл зарплат (грн):
| Інтервал | Частота f | Кумулятивна C |
|---|---|---|
| 10-20k | 5 | 5 |
| 20-30k | 8 | 13 |
| 30-40k | 12 | 25 |
| 40-50k | 10 | 35 |
| 50-60k | 5 | 40 |
N=40, N/2=20 – медіанний інтервал 30-40k (C=13<20, наступний 25>20). L=30k, C_f=13, f_m=12, h=10k. Me=30 + (20-13)/12 *10 ≈ 33.75k. Ідеально для великих наборів, як переписи чи опитування.
Застосування медіани в реальному житті: від зарплат до медицини
У фінансах медіана доходів краща за середнє: в США середнє $70k, медіана $50k – враховує бідних. В Україні IT: медіана dev $3450 (зима 2026, dou.ua), тестувальники $2250. Показує, скільки типовий спеціаліст заробляє, без топів.
Нерухомість: медіана цін на квартири в Києві ~3млн грн стабільніша, бо олігархи не спотворюють. Медицина: медіана часу виживання в онкології ігнорує довгожителів, дає реальний прогноз.
Економіка: медіана ВВП на душу показує типовий рівень добробуту. У бізнесі медіана продажів допомагає планувати запаси, фокусуючись на 50% типових угод.
Історія медіани: від Курно до сучасності
Термін з’явився у Антуана Курно 1843-го – значення, що ділить розподіл навпіл. Раніше Лаплас (1774) використовував для мінімізації абсолютної помилки. Густав Фішнер популяризував як “Centralwerth” у психології. Сьогодні – основа робастної статистики (uk.wikipedia.org).
У 20 ст. медіана увійшла в економетрику, а в 21 – в ML: median-of-means для стійкості до шумів.
Властивості медіани: чому вона неперевершена
Стійкість до викидів: змінює лише 50% даних. Мінімізує \(E|X – c|\). Для симетричних – =середньому. Інваріантна до монотонних перетворень (логарифмування). У багатовимірному – геометрична медіана.
Нерівність: |середнє – медіана| ≤ σ. Допомагає виявляти скошеність.
Типові помилки при роботі з медіаною
Не сортуєте дані – медіана буде хибною. Ігноруєте парність: забуваєте середнє двох значень. Для групованих плутаєте кумулятиву з частотою. В Excel забуваєте масивну формулу для умов. Ви не повірите, але навіть профі плутають медіану з модою в мультимодальних даних!
- Помилка 1: Застосовувати середнє до скошених даних – результат спотворений.
- Помилка 2: Ігнорувати викиди перед сортуванням (вони лишаються, але не впливають).
- Помилка 3: Для часових рядів не враховувати тренди – медіана статична.
Порада: завжди візуалізуйте гістограмою, щоб побачити розподіл. Ці пастки коштували бізнесам мільйони в прогнозах.
Медіана в data science та трендах 2026
У машинному навчанні median-of-means – робастний оцінювач середнього проти аномалій. У big data: перцентилі (медіана=50-й). Тренд: у AI для фічер-інжинірингу, бо стійка до шумів.
У 2026 медіана ключова в аналітиці соцмереж: типовий лайк/перегляд. Зростання популярності в ESG-звітності: медіана викидів CO2 чесніше середнього.
Емоційний акцент: медіана democratизує дані, показуючи правду для більшості, а не еліти. Спробуйте самі – і побачите, як світ чисел оживає.