Результати виконання домашнього завдання №4 - SlavkoPrytula/Covid-19-Tracker GitHub Wiki
Дані, накопичені для подальшої обробки
Статистичні дані грипу:
Для дослідження ми обрали не всю планету, а лише США, тому статистичні дані грипу відповідно беруться для цієї країни. Джелером даних є вебсайт центру контролю і профілактики захворювань США. Збір, збереження і обробка інформації проводиться за допомогою розробленого ADT (опис ADT). Після здійснення всіх потрібних маніпуляцій ми можемо легко отримати потрібні для подальшого аналізу дані. Основною ціллю нашого дослідження є порівняння статистики грипу і COVID-19, тому розроблений абстрактний тип даних має методи, які дозволяють користувачу остримувати для кожного року окремо та середню кількість смертей, хворих і людей, які виздоровіли.
Статистичні дані COVID-19:
Джерелом статистичних даних COVID-19 є API розроблене John Hopkins University. Взаємодія між користувачем і API відбувається за допомогою хостингу (короткий опис) і розробленого абстрактного типу даних (опис ADT). Використовуючи CoronaADT, користувач може отримувати всі потрібні для подальшого аналізу дані.
Результати обчислювальних експериментів
Відображення результатів обчилювальних експерементів:
При порівнянні використовувались середні статистичні дані для грипу за 2010-2016 роки і останні статистичні дані COVID-19. Для відображення результатів обчислень було вибрано стовпчасту діаграму. Відсоткові відношення виводяться у текстовому форматі в консоль.
Трактування результатів обчилювальних експерементів:
Головною ціллю нашого проєкту було порівняння статистики грипу і COVID-19. Для дослідження ми вибрали конкретну країну, бо це дає можливість при подальшому розширенні можливостей нашої програми набагато легше порівнювати вплив різних факторів на сататистику вірусу, наприклад рівня самоізоляції. Часовою одиницею, для якої ми накопичували дані, є один рік. Саме такий проміжок часу дозволяє усвідомити масштаб хвороби і уникнути похибок. При порівнянні даних за один день є велика ймовірність неправильно протрактувати результати. До прикладу, якщо б ми порівнювали статистику 1 лютого, то могло б скластись враження, що COVID-19 не є небезпечним, але сьогоднішня ситуація в світі (станом на 10.05.2020) показує зовсім інше. Проблемою стало те, що пандемія COVID-19 почалась 5 місяців тому, тому ми вирішили використовувати машинне навчання для заповненя статистичної "пустоти". Також користувач має можливість порівняти грип і COVID-19 без прогнозування.
Результати порівняння без передбачення:
Кількість хворих:
Кількість людей, які виздоровіли:
Кількість смертей:
При аналізі кількості хворих ми бачимо, що хворих на коронавірус значно менше, ніж на грип. Може скластись хибне враження, що COVID-19 не є небезпечним, навіть, якщо врахувати, що для нього ми маємо дані всього за 5 місяців. І це не дивно при перевазі грипу в 16 разів, але початкове враження швидко руйнує графік порівняння кількості смертей. Не зважаючи на значну перевагу в кількості хворих, по кількості смертей COVID-19 випередив грип у декілька разів.
Результати порівняння з передбаченням:
Кількість хворих:
Кількість людей, які виздоровіли:
Кількість смертей:
Існує багато методів машинного навчання, за допомогою яких можна прогнозувати поширення вірусу. Нами було відібрано три: Linear Regression, Polynomial Regression і Radial Basis Function. З них в процесі розробки ми вибрали найкращий на наш погляд. Після проведення тестів метод RFB - Radial Basis Function показав найкращі результати у прогнозуванні поширення COVID-19 до кінця 2020 року.
Результати проведених тестів
-
RBF - 99.2% accuracy
-
Linear Regression - 98.8% accuracy
-
Polynomial Regression - 95.2% accuracy
Результати проведених обчислювальних операцій з використанням машинного навчання тільки підтвердили результати аналогічних обчислень без нього. При збереженні тепершньої тенденції COVID-19 в майбутньому буде приблизно така ситуація:
-
Середня кількість хворих на грип за 2010-2016 роки буде становити 437% від середньої кількості хворих на COVID-19 в 2020 році.
-
Середня кількість людей, які вилікувались від грипу за 2010-2016 роки буде становити 574% від середньої кількості людей, які вилікувались від COVID-19 в 2020 році.
-
Середня кількість смертей від грипу за 2010-2016 роки буде більше ніж в 10 раців менша ніж від COVID-19 за 2020 рік.