Контактная информация

Задать вопросы и получить на них ответы, записаться на консультацию или обучение Вы можете любым удобным для Вас способом:

  • по телефону: +7 988 5814100
  • по Skype: sin-ta77
  • по электронной почте: stat@best-stat.ru

 Время работы - с понедельника по пятницу, с 10.00 до 18.00

Очные консультации и занятия проходят в городе Ростове-на-Дону.

 

Организация набора статистических данных

Вы провели исследование (обследовали пациентов, опросили потребителей и клиентов, провели измерения, нашли опубликованные статистические данные и т.п.) и у вас образовались данные, которые нужно статистически обработать. Как их организовать наиболее удобным образом?

В каком бы виде ни были первоначальные ваши данные, в виде вороха анкет или историй болезни, таблиц статистических показателей или каком-то ином, совершенно логично их как-то упорядочить.

Первый важный совет: если вы хотите использовать широкий спектр статистических методов, строить модели и т.д., то не стоит сразу

представлять данные в сгруппированном виде. Другими словами, не нужно строить таблицы и подсчитывать в них некоторые итоги: сколько было мужчин и сколько женщин, у кого был какой уровень образования и доход, кто болел неким заболеванием или предпочёл определенный продукт. Это уже итоговое представление, которое имеет очень ограниченное применение для статистической обработки данных.

В каком же виде должны быть представлены данные?

Данные нужно организовать по отдельным единицам наблюдения (людям, семьям, предприятиям, регионам, странам и т.п.) в виде таблицы. По строкам располагаются наблюдения, по столбцам - их характеристики, параметры (переменные).

Другими словами, в каждой строчке у вас будет содержаться информация об одном наблюдении. Например, это один опрошенный человек и его ответы на вопросы анкеты.

Что использовать для организации данных?

Очевидно, что данные на бумажных носителях - не просто «прошлый век», а в буквальном смысле прошлое тысячелетие. Поэтому данные нужно организовать в виде файла. Удобнее это делать в так называемых электронных таблицах типа MS Excel, Numbers и аналогичных.

Конечно, если вы владеете некоторым специализированным статистическим пакетом и не планируете никому передавать свои данные для помощи с обработкой, то можно внести данные сразу в пакет. Но если у вас нет статистического пакета, то программа типа Excel будет оптимальным выбором, в том числе и по причине ее распространенности. У вас не будет сомнений в том, что ваш файл смогут открыть и просмотреть другие.

Важный нюанс оформления собранной информации в Excel: не спешите «наводить красоту» в таблице и объединять ячейки, это может создать проблемы при импорте данных в статистический пакет, да и просто при их копировании. Чтобы избежать лишней работы, связанной с отменой объединения ячеек, лучше сразу поступиться эстетикой.

А вот оформление в виде жирного шрифта или курсива, цвет текста, заливка ячеек цветом и линии сетки таблицы не влияют на качество организации данных с точки зрения их дальнейшей обработки.

Полезно будет пронумеровать ваши объекты, то есть наблюдения, строки. Это позволит их идентифицировать, особенно если вы планируете отдавать данные для обработки, и хотите удалить ту их часть, которая содержит конфиденциальную информацию (фамилии и т.п.).

И ещё несколько важных частностей при организации данных.

Если ваши данные представляют собой интервалы (например, 3-5 или 8-10, как часто бывает с результатами анализов в медицинских исследованиях), то только вы, как исследователь, можете корректно определить, какое число использовать для расчетов. Очевидно, что и электронные таблицы типа Excel, и статистические пакеты «воспримут» такой интервал, как текст (или как формулу, и попытаются вычислить разность). Поэтому данные нужно преобразовать. Часто для анализа используют в качестве значения середину этого интервала (то есть 4 и 9 в приведённом примере). Но я некоторых случаях имеет смысл взять одну из границ интервала, либо другое число. Это зависит только от смысла используемого показателя.

Ещё один важный вопрос: что делать с пропусками данных? В ряде случаев их можно заменить чем-то, например, нулями, хотя это скорее исключение из правила. Чаще всего приходится выбраковывать, «вычищать» наблюдения с пропусками. Но решение также лежит в изучаемой предметной области, а не в статистике как таковой. Статистик может только подсказать последствия того или иного выбора.

И последний из наиболее важных вопросов: как кодировать качественные данные. Качественные - это данные, не имеющие количественного измерения. Например, пол, профессия, наличие заболевания или выбранный вариант ответа на вопрос анкеты.

Если у качественной переменной всего два возможных значения, то лучше их кодировать нулем и единицей. Особенно это удобно и понятно, если нужно закодировать ответы «да» (1) и «нет» (0), или принадлежность к экспериментальной группе (1) или контрольной (0).

Конечно, можно выбрать и коды «1» и «2», например. Но для работы в большинстве статистических пакетов, иесли вас будут интересовать более сложные расчеты, нежели расчёт долей давших разные варианты ответа, все равно придётся перекодировать. Если же вариантов более, чем два, то лучше тоже один из вариантов сделать «нулевым». Какие ещё есть варианты кодировки и в каких случаях они потребуются, если качественная переменная принимает более двух значений, поговорим отдельно.

Более подробное объяснение принципов организации файла данных смотрите в видео:

 

Дата публикации: 30.01.2020