Добавление нового блог-раздела для обмена интересными визуализациями и представлениями данных об Узбекистане
Во время учёбы в Лондоне в 2006 г., я в начале хотел написать свою магистрскую диссертацию на основе рынка Узбекистана. Но главная проблема с чем я столкнулся было отсутствие каких-либо действительных или достоверных данных в интернете, относительно социальной, экономической и деловой среды Узбекистана. Но сегодня, ситуация намного изменилась из-за широкого распространения и доступности Интернета по всей стране. Местные предприятия начали применять возможности Интернета путём создания различных новостных и СМИ веб-порталов и, что более важно, правительство само начало принимать разные веб-инициативы.
Одним из таких интересных инициативов был недавний запуск открытого портала данных Республики Узбекистан - www.data.gov.uz, которая направлена на содействие демократии данных, предлагая действительные социальные, экономические и другие виды наборов данных для всех тех, заинтересованных, в форматах .csv, .json, .xml через веб-сайт. Хотя сайту уже только несколько месяцев, он уже содержит более 250 наборов данных, предоставленных более чем 25 гос-организациями, и которые уже были загружены почти 15,000 раз. Так как я живу и дышу большими данными в моих ежедневных заданиях, я решил сам исследовать это и поделиться с вами некоторыми интересными находками я обнаружил. Для начала, я взял данные о числе людей, уехавших из Узбекистана с 1991 по 2013 гг., провёл очистку файлов данных (подробнее об этом в конце), проанализировал, визуализировал их, и вот что из этого получилось:
Как вы видете, число кажется большим, и большинство людей покинули страну в течение первых четырех лет после обретения Узбекистаном независимости. Но, как это общее агрегированные данные не говорят нам многого, я потом разбил их по регионам и только потом начали появляться интересные наблюдения.
Что ясно из этой графы, большинство людей (более 30%) уехавших были из Ташкента. Интересно для меня то, что наименьшее число уехавших были из моего родного города, Намангана. Тем не менее, отношения пропорций в этой графе представляют процент от общего количества уехавших, не учитывая размер населения того региона. Поэтому, я скачал данные о населении по регионам, объединил их с моим основным файлом, и получил следующие результаты.
Что более интересно мы можем видеть из этой визуализации, то что, хотя наибольшее число уехавших были из Ташкента, получается, что большинство уехавших на самом деле были из Навоийской области по сравнению с населением этого региона, и процент уехавших от населения Ферганы и Самарканд является относительно низким. Так вот еще одна итоговая графа для вас.
Я думаю, что наиболее важные находки, мы можем вынести из этой графы, что ежегодно в среднем 1% общего населения уезжает из Узбекистана из которых большинство приходят из Джизакской (1,2%), Ташкентской, Сырдарьинской, Навоийской и Каракалпакской (2,1%) областях. Но если обратить внимание на общие цифры, то Навоийская область с 1991 года потеряла 42% своего населения (Узбекистан - 19%), несмотря на многие масштабные инвестиции сделанные в регионе за последние годы. Это должно дать достаточно поводов местным правительствам для дальнейшего изучения причин таких больших потерь. Это относится и к остальным регионам большой пятёрки в графе.
Однако, важно отметить ограничения использованных данных, так как они не включают в себя данные о никаких возрастных групп, профессиональном профиле уехавших, пол, причинах отъезда, проценте людей вернувшихся и другие атрибуты, которые безусловно добавят еще больше ценности для анализа. Кроме того, имеющиеся данные на сайте, предоставлены совсем в беспорядочной форме, как будто они были выброшены в мусорное ведро, потому что они требуют много тщательной очистки, форматирования и оптимизации, которые могут занять много времени. Вот пример того, как загруженный файл данных в формате CSV по сравнению с тем, как оно выглядет на веб-странице:
Остаётся надеяться, что администрация Data.gov.uz постарается впредь предоставлять более хорошо структурированные и оптимизированные наборы данных, чтобы их целевая аудитория как мы могли больше пользоваться от такой инициативы открытых данных. А я в свою очередь, постараюсь делиться с вами здесь еще более интересными визуализациями данных время от времени. Буду рад услышать ваши комментарии и предложения ниже.