Цензор.НЕТ

07.11.19 13:55
Редакция Цензор.НЕТ может не разделять позицию авторов. Ответственность за материалы в разделе "Блоги" несут авторы текстов.

Крок вперед: якими стануть відкриті дані Держстату у 2023 році?

Відкриті дані від публічної інформації відрізняються тим, що вони мають, переважно, табличну форму і складаються з структурної сукупності однорідних значень. В ідеалі, звісно, щоб вони були у машиночитаних форматах, відповідно до Постанови Кабміну №835 від 2015 року, це: JSON*, CSV*, ODS*, або ж звичайні таблиці XLS(X), що теж непогано.

Проблема в тому, що екселівську таблицю можна заповнити таким чином, щоб максимально ускладними обробку інформації. І тоді відкриті дані стають важкодоступними для аналізу. На прикладі даних товарної структури зовнішньо-економічної діяльності з сайту Держстату я спробую пояснити основні проблеми у роботі з цими даними.

Місія здійсненна: як ми досліджували український експорт

Про роль офшорів в українській економіці почали активно говорити ще з 2016 року.

В 2018 році, коли Мінфін почав впроваджувати угоду BEPS щодо протидії розмиття податкового законодавства і виведення прибутків закордон - ідея дослідити товарну структуру українського експорту в офшори стала нагальною.

Це важливо, щоб приблизно окреслити обсяги схемного експорту на пов’язані фірми українських компаній закордоном, адже це впливає на:

- кількість отриманої валютної виручки Україною і, як наслідок, змогу пережити валютні коливання

- зменшення податку на прибуток і, відповідно, зменшення надходжень до бюджету

- це значно впливає на конкуренцію та чесний бізнес, адже платити податки і працювати "по білому" стає не вигідно.

Тому ми визначили ТОП-5 сфер, що складають 70% українського експорту по товарних групах і вирішили дослідити, яка частка з них експортується в країни - офшори, визнані Кабміном, FATF (Financial Action Task Force) та OECP (Organisation for Economic Co-operation and Development).

Дані про зовнішню торгівля окремими видами товарів за країнами світу поділені на сайті Держстату за товарними групами УКТЗЕД у 21 окремому документі (кількість товарних груп), які неможливо відкрити у веб-перегляді, а лише завантажити архів таблиць.

Нас цікавили зокрема недорогоцінні метали та вироби з них, адже вони займають перше місце за часткою українського експорту. Таблиця з однойменною назвою налічує понад 15 тисяч рядків - і це лише за один місяць.

Непрощені гріхи екселівських таблиць

Цей документ має дві найбільші вади:

  1. Не правильна структура документу - різнорідна інформація в одному рядку
  2. Різний тип запису одних і тих же значень


Вигляд таблиці Держстату щодо товарно структури ЗЕД

В одному стовпці міститься чи не 5 видів різнорідної інформації, тим паче - разом з числовими та буквенними значеннями, що абсолютно неприпустимо культурою даних.

В одному стовпчику дані щодо консолідованої інформації по країнах СНД,Європи та в розрізі країн, назви та коди товарних груп - все це унеможливлює сортування, фільтрування та аналіз. Обробити такий документ без спеціального скрипта скоріш, неможливо.

Але і після того, як вдасться роз’єднати товарні групи від країн, а консолідовані дані від первинних - виникне інша проблема - об’єднати коди товарних груп з їхніми назвами. Єдиний спосіб це зробити - співставити коди УКТЗЕД з назвами, що знаходяться на веб сторінці Верховної Ради щодо даних Митного тарифу України без можливості скачування табличного формату.

На жаль, Держстат не опублікував довідника УКТЗЕД, отже, без ще одного скрипта не обійтись.

Після цього можна приступати до очищення даних, адже назви одних і тих же країн, що зустрічаються у різних товарних групах записані по різному: з використанням латинських та кириличних літер, "Туркменистан-Туркменістан", "Андора-Андорра", тощо.

Лише після цих кроків можна приступити до зведення таблиць та аналізу. До речі, результати дослідження ми публікували на Цензорі на початку року, ознайомитись можна тут.

Та чи можна було б зекономити безліч часу за який, приміром, проаналізувати дані за більший відрізок часу чи розширити список товарних груп?

Зекономити десятки годин аналізу через покращення даних

Звісно, для цього потрібно аби в структурі документу були:

  1. Розміщені дані коректно у таблиці: числові значення окремо від буквенних, розділ до розділу у горизонтальній площині, а не вертикальній.
  2. Усі значення країн чи товарних груп варто заповнювати випадаючим списком, щоб уникнути різного написання однакових категорій.
  3. Створити табличний довідник УКТЗЕД з кодами та назвами, який можна легко використати у зведених таблицях при аналізі товарних груп

Можливий вигляд таблиці Держстату щодо товарної структури ЗЕД

Приблизно це могло б виглядати у зображенні вище. Така структура нагадує мені дані митниці, хоча, на жаль, для аналізу вони не доступні - поки що це конфіденційна інформація.

У такому вигляді аналіз документа тривав би лічені години, а це дуже важливо для наступних груп:

  1. Маркетологів та власників бізнесу - що шукають нові ніші та ринки збуту
  2. Чиновників Мінфіну, НБУ, Митниці, Мінекономрозвитку, тощо - для яких коректне policy making неможливе без аналізу даних
  3. Економістів та науковців - що вивчають тенденцію розвитку макроекономічних процесів
  4. Аналітиків та журналістів - що досліджують та висвітлюють кон’юнктури ринків, економічні процеси для ширшого кола аудиторії, тощо.

Але є і хороші новини - Держстат визнає наявні проблеми і через підписану Угоду про асоціацію з ЄС зобов’язався привести державну статистику у відповідність з вимогами та стандартами ЄС - про це ідеться у постанові Кабміну № 222 від лютого 2019 року, де є Програма розвитку державної статистики до 2023 року.

Якими мають бути дані Держстату 2023 року?

Основні цілі програми:

Які проблеми це вирішить?

Все це дасть нам змогу відійти від статистичних даних зразка 1997 року та отримати сучасні інтероперабельні дані. Ось як виглядають дані по експорту товарів на сайті Євростату - з можливістю фільтрування, сортування, скачуваня у різних форматах, веб перегляду, тощо.

дані Євростату щодо зовнішньої торгівлі

Реформування Держстату та проведення перепису населення у своїй синергії надасть можливість запустити двигун розвитку як державного, так і приватного сектору економіки країни.

Смотреть комментарии → ← Назад в рубрику