Экономика » Анализ » Измерение доходов населения: варианты оценки смещения

Измерение доходов населения: варианты оценки смещения

Т. Ю. Черкашина


Во многих исследованиях в экономике и социологии используются переменные доходов в качестве характеристик уровня жизни или как фактор дифференциации потребительских, трудовых, политических и других видов поведения и установок. Проблема оценки надежности и достоверности данных о доходах всегда существует, но не всегда учитывается в конкретных исследованиях. Специализированные социально-экономические обследования населения как выдвигают дополнительные методические вопросы, так и дают дополнительные возможности, связанные с анализом доходов: включая несколько показателей доходов, они позволяют реализовать больше, чем одно, концептуальное решение доходного измерения уровня жизни семьи или индивидуального экономического статуса.

При множественности измерений доходов ответы на одни вопросы можно использовать для «ремонта» пропусков или оценки надежности ответов на другие. Для российских экономистов и социологов доступной и активно используемой базой данных, позволяющей сравнивать ответы и осуществлять внутреннюю импутацию пропущенных данных о доходах, является Российский мониторинг экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ1. В РМЭЗ вопросы о доходах сформулированы в «коротком» и «длинном» форматах: так, в анкете взрослых есть вопросы о пяти видах индивидуальных доходов, полученных за последние 30 дней (выплаты на основном и дополнительном местах работы, приработки, пенсии и пособия по безработице), а также вопросы о средней заработной плате на основном месте работы за последний год или меньший фактически отработанный период (для работающих) и общей сумме индивидуальных доходов (для всех респондентов старше 15 лет). В качестве примеров внутренней импутации доходных переменных можно упомянуть исследования мобильности заработной платы и отдачи на образование, в которых главной переменной была среднемесячная заработная плата по основному месту работы за последние 12 месяцев1 2, а для респондентов, у которых значения данной переменной отсутствовали, брали значения заработной платы за последние 30 дней (Денисова, 2007. С. 361 — 362; Лукьянова, 2007. С. 498; 2017. С. 297). Как ситуационное ограничение такого решения отмечается распространенность задержек заработной платы в России во второй половине 1990-х — начале 2000-х, что усиливало дифференциацию по оплате труда, поэтому полученные при использовании данной переменной результаты «могут несколько недооценивать истинный уровень неравенства в эти годы» (Лукьянова, 2007. С. 498).

Но часто в исследованиях лишь обозначаются используемые доходные переменные, и за текстом остается описание методической стороны: почему выбрано именно такое измерение? каковы масштабы пропусков значений переменных? какие имеются возможности оценить смещение и скорректировать значения базы данных? к каким смещениям приводит импутация значений переменных? Чтобы отчасти восполнить этот пробел, в статье будет представлено сравнение нескольких вариантов определения индивидуальных доходов на данных РМЭЗ с оценкой различий распределений этих переменных. Для понимания методологического и методического контекста сравнения разных данных о доходах предложим обзор подходов и исследований, в которых даются оценка смещений и иногда сопровождающая ее коррекция значений доходных переменных.

Оценка смещения данных о доходах на макро- и микроуровне

Определение смещения и ошибок в данных о доходах подразумевает сравнение информации из разных источников или полученной по разным методикам. При оценке на макроуровне сравнивают характеристики совокупности индивидов, например средние значения, суммы и доли доходов из отдельных источников. К коррекции показателей доходов населения на макроуровне прибегает, к примеру, Росстат3: эмпирическое распределение, полученное на данных выборочных обследований домохозяйств (ОБДХ), преобразуется в ряд распределения, соответствующий значению группировочного признака в генеральной совокупности (величина среднедушевого денежного дохода, полученная на основе баланса денежных доходов и расходов населения) (Жаромский и др., 2015). Значение среднедушевого дохода на данных ОБДХ ниже4, чем получается при обобщении в балансе5 данных статистической отчетности различных субъектов и экспертной дооценки неучтенных доходов6.

Есть примеры решения методических задач на данных макроуровня: оценивается точность измерения доходов с помощью одного вопроса (single question) по сравнению с набором вопросов (detailed questions). Единичный вопрос об индивидуальном доходе был включен в анкету опроса омнибусного типа7 Управления национальной статистики Великобритании (UK Office for National Statistics’s Omnibus survey), a о семейном — Британского исследования социальных установок (British Social Attitudes survey). Полученные распределения сравнивались с построенными на основе ответов на набор вопросов о разных видах доходов: для индивидуальных референтными были Обследование семейных ресурсов (Family Resources Survey, FRS) и Обследование расходов и питания (Expenditure and Food Survey, EFS), которое проводил Департамент труда и пенсионного обеспечения, а для семейных доходов — только FRS. Исследователи пришли к обнадеживающему выводу, что единичный вопрос о доходах может привести к распределению, которое близко к основанному на подробных вопросах, но более точные ответы на единичный вопрос дают имеющие доход от занятости, а не те, кто не работает и зависит от пособий или пенсий (Micklewright, Schnepf, 2010).

Сравнение макроданных о социальной поддержке в США, зафиксированных в опросах и определенных по административным источникам, показало, что, во-первых, средний размер всех рассматриваемых видов пособий и срок их получения ниже в опросных данных, со временем эти смещения увеличиваются. Во-вторых, из трех факторов — ошибки покрытия, ошибки отсутствия ответов и ошибки измерения — именно последние вносят наибольший вклад в смещение агрегированных значений (Meyer et al., 2015).

Сравнения на макроуровне опросных и административных данных о доходах требуют, как минимум, наличия персональных идентификаторов, по которым можно на уровне отдельных индивидов связать информацию (узнать, что об одном и том же респонденте указано в опросах и административных данных), полученную из разных источников, и концептуальной сопоставимости измерений доходов, реализованных в разных наборах данных. Ограничение для широкого распространения таких сравнений — строгие правила конфиденциальности административных данных, к примеру, в США (Kim, Tamborini, 2014; Ziliak, 2015). Европейские исследователи до недавнего времени были более свободны в этом плане: например, в Австрии личные микроданные из опросов и данные из регистров связывают с использованием анонимного персонального идентификатора (ЬРК), и согласно законодательству, нет необходимости запрашивать согласие респондента (Angel et al., 2018)8. Однако сравнение данных из двух источников предполагает, что ошибка измерения в опросах не коррелирует с ошибкой измерения по административным регистрам.

Как правило, административные данные, используемые для «внешней» оценки опросных сведений, — это налоговые регистры, а также отчетность подразделений социального обеспечения (Европейская экономическая комиссия ООН, 2007), и их познавательные возможности зависят от организации сбора и хранения. Например, в Дании уникальный персональный идентификационный номер (CPR) используется всеми государственными учреждениями для хранения информации о конкретных лицах, включая информацию о налогообложении, данные о владельцах автомобилей, о контактах с системой здравоохранения, системой образования, о составе семьи и месте жительства, что позволяет конструировать домохозяйственные единицы (Kreiner et al., 2015). Но сравнение опросных и административных данных не лишено смещений. В упомянутом примере австрийского исследования доля найденных идентификаторов в общей численности участвовавших в опросе изменяется со временем, но в целом увеличивается: она выросла с 96% в 2008 г. до 99% в 2011 г. Отсутствующие ключи чаще всего наблюдаются для молодых людей, а также проживающих в столице и среди лиц с неавстрийским гражданством, то есть использование данных регистров приводит к неполному представлению информации о доходах этих групп (Angel et al., 2018).

Сравнения административных и опросных данных обнаруживают, во-первых, более низкие средние и медианные значения показателей доходов, полученные в опросах, и статистические эксперименты с разными измерениями доходов не меняют этого вывода. Например, в опросе, проведенном в Дании в 2010 г., респондентов просили ответить только на один вопрос о доходе до уплаты налогов. Исследователи предполагали, что респонденты могут говорить о располагаемом доходе, а в регистре подоходного налога учитываются доходы до уплаты работодателем пенсионных взносов, и респондент мог их не включать в сообщаемый доход. Но вычитание из «административного» дохода величины пенсионных взносов не изменило общей картины расхождения измерений дохода по данным из обследования и по регистру (Kreiner et al., 2015). Российский эксперимент показал, что реальный размер выплат пенсионерам в среднем на 11% выше (по медиане), чем они сообщают в интервью. «Среднее арифметическое, близкое к медиане, и небольшая стандартная ошибка среднего позволяют предположить, что занижение оценки доходов на 11 — 12% является статистической закономерностью смещения данных о доходах» (Алашеев, 2015. С. 41).

Во-вторых, в разных частях распределения искажения в большую и меньшую сторону наблюдаются с разной вероятностью: при низких доходах больше вероятность, что респонденты будут завышать свой доход (сообщаемый в опросе по сравнению с административными данными); с увеличением доходов, наоборот, выше вероятность занизить сообщаемый доход, что интегрально приводит к ошибке «скатывания в середину» (mean-reverting errors) (Angel et al., 2018; Kim, Tamborini, 2014; Valet et al., 2019).

Различия в величине доходов одних и тех же людей, зафиксированных разными способами, приводят к разным выводам о значимости экономического статуса как, к примеру, фактора установок и электорального поведения. Данные исследования в Дании не показывают связи между поддержкой политических партий и доходом, сообщенным в телефонном опросе, а доход этих же респондентов, отраженный в налоговых реестрах, значимо связан с выбором политических партий (Hariri, Lassen, 2017).

Конечно, сравнения опросных и административных данных не лишены ошибок и ограничений не только из-за конфиденциальности. Одну из работ, посвященных сопоставлению опросных и административных данных о заработной плате, Дж. М. Эбоуд и М. X. Стинсон начинают с тезиса «предположение о том, что некоторые данные содержат ошибки, в то время как другие данные — нет, фундаментально неверное. Хотя процесс генерации ошибок может отличаться в двух источниках, ни один источник не может быть полностью безошибочным» (Abowd, Stinson, 2013. Р. 1451). Они называют три причины, почему административные данные при таких сравнениях могут не быть истинными. Во-первых, измерения доходов в регистрах и опросах могут различаться концептуально. В рассматриваемом ими примере оплата медицинской страховки работодателем не фиксируется в статистических регистрах, с которыми они работали, но могла включаться респондентами в валовой объем выплат по месту работы, о которых они сообщали в интервью. Во-вторых, административные данные также могут быть искажены под действием «человеческого фактора». Источник административных данных о вознаграждении за труд — отчетность работодателей, при заполнении которой могут быть сделаны ошибки, в том числе непреднамеренные. Из-за «человеческого фактора» как в этом исследовании, так и в других из сопоставления исключаются данные о самозанятых: «Самозанятые лица фактически самостоятельно отчитываются о доходах в налоговые органы, и поэтому мы не так верим в информацию из регистров для этой группы, как для наемных работников и лиц, получающих трансфертный доход» (Kreiner et al., 2015. Р. 297). В-третьих, возможны ошибки при сопоставлении данных из нескольких источников, например, из-за ошибочно указанных идентификационных номеров (Abowd, Stinson, 2013. Р. 1460 — 1461).

Поэтому не стоит переоценивать административные данные о доходах, так как они фиксируют только официально полученные средства. Данные обследований могут быть более точными для имеющих «неформальные» доходы: только через обследования можно «увидеть» тех, кто не имеет личных доходов или имеет только необлагаемые налогом доходы. При подробном анализе ошибок измерения, например в налоговых данных, их оказывается не меньше, чем в опросных (Slemrod, 2016). И «поскольку административные данные являются продуктом административных процессов, цель сбора данных, вероятно, будет влиять на их формат и качество» (Valet et al., 2019. Р. 477). Тем не менее сопоставление информации о доходах из административных и опросных источников не только идентифицирует общие тенденции в смещении опросных данных, но и привлекает внимание к методологии компонентного (композиционного) измерения доходов, не дает впасть в иллюзию существования идеальных данных о доходах.

Сравнение измерений доходов, осуществленных в одном обследовании. Включение в анкеты вопросов о разных видах доходов и их общей сумме — распространенный прием в обследованиях домохозяйств по социально-экономической проблематике. Г. Дж. Дункан и Э. Петерсен делают обзор такой практики в американских обследованиях до начала 2000-х годов (Duncan, Petersen, 2001), К. Хансен и Д. Кнейл — в обследованиях в Великобритании (Hansen, Kneale, 2013). В UK Millennium Cohort Study (MCS), в котором участвуют семьи с детьми, рожденными в 2000—2001 гг., подробно анализируются данные о доходах, собранные в 2007 г. Ответ на вопрос о семейном доходе предполагал выбор одного из 19 интервалов, который отражает уровень жизни семьи (границы интервалов отличались для супружеских пар и родителей-одиночек), а множественное измерение (multiple questions) включало вопросы о 15 видах доходов (при наличии каждого из них спрашивали о конкретной величине). При множественном измерении 29% семей попали в ту же доходную группу, что и указанная при ответе на единичный вопрос; 26% имели при множественном измерении более низкий доход и 44% указали более высокий доход при множественном измерении, чем при выборе интервала для общего 

дохода (Hansen, Kneale, 2013. Р. 1133). «Анализ различий в оценках доходов разными методами показал, что ошибка измерения может быть распределена в неравной мере между социально-экономическими и социально-демографическими группами. Использование множественного измерения в целом дает более высокие значения доходов, чем при одиночном вопросе. Это верно, прежде всего, для определенных групп населения — тех, кто получает пособия с проверкой на нуждаемость, самозанятых, частично занятых или тех, у кого низкий доход. Это может быть систематическое смещение, связанное с использованием того или иного измерительного инструмента» (Hansen, Kneale, 2013. Р. 1138).

К аналогичному выводу на данных американского Current Population Survey — Demographic Supplement (2001 г.) приходит M. Даверн с коллегами: единичный вопрос о доходе9 также в целом ниже, чем агрегированный; и чем больше размер домохозяйства, тем выше вероятность занижения ответа на единый вопрос об общей сумме семейного дохода (Davern et al., 2005).

В. Янсен с коллегами в рамках венгерского TARKI Omnibus Survey осуществили методический эксперимент, предложив половинам выборки разную последовательность «короткого» вопроса о доходах (открытый вопрос с просьбой назвать сумму индивидуального дохода, в случае затруднения — выбрать интервал на шкале) и подробного набора вопросов. В анализ были включены ответы только тех, кто имел такой доход, и у 62% величина, указанная при ответе на «короткий» вопрос, и расчетная сумма индивидуальных доходов не отличались; у 31% расчетный личный доход был выше общего, сообщенного респондентом. Когда «короткий» вопрос был представлен первым, средняя разница расчетного и сообщенного индивидуальных доходов была ниже, чем когда сначала задавали подробный набор вопросов. В последнем случае можно было бы ожидать, что в «подводящем итоги» «коротком» вопросе произойдет «суммирование в уме» компонентов дохода, однако результаты эксперимента оказались противоположные: увеличение числа источников дохода ведет к большему расхождению между подробными и краткими оценками дохода, пожилые и имеющие высшее образование дают более точные ответы на вопросы о доходах, чем молодые и менее образованные (Jansen et al., 2013).

Как при сравнении с административными данными, так и при сопоставлении ответов на вопросы в разных форматах — «коротком» и «длинном» — теоретические рамки для анализа недостоверности ответов, отказов и затруднений отвечать на вопросы о доходах задаются когнитивным подходом и теорией рационального выбора: когнитивная модель предполагает, что некоторые респонденты могут быть не в состоянии предоставить точную информацию о доходах, а перспектива рационального выбора предполагает, что могут, но не хотят (Valet et al., 2019. Р. 487). Когнитивная теория акцентирует интерпретацию респондентами вопроса о доходах, поиск соответствующей информации, а модель рационального выбора подразумевает, что далее респондент «выбирает» свой ответ, и этот выбор зависит от того, какой возможный ответ кажется ему наилучшим, будет он руководствоваться соображениями социальной желательности и самопрезентации или избегать предполагаемых нежелательных последствий от ответа (Schrapler, 2004). В целом наибольшие смещения и пропуски ответов обнаруживаются на хвостах распределения доходов, и причины этих ошибок разнообразны: респонденты могут не обладать достоверной информацией о доходах всего домохозяйства в силу особенностей модели управления семейными финансами (Moore et al., 2000); могут знать величину пособий, но не знать точного, правильного их названия, из-за чего возникают расхождения ответов респондентов и административных данных (Micklewright, Schnepf 2010). Композиционное (детальное) измерение доходов также не всегда рассматривается как способ получить более точные и полные данные, так как респонденты могут быть согласны сообщить общую сумму своих доходов, но не уточнять, из каких источников они получены; большое количество вопросов о доходах, которых может не быть у индивидов или семей, утомляет и провоцирует отказы отвечать. В этом плане дискуссия о способах измерения доходов в обследованиях — с помощью одного или набора вопросов — не завершена, а отсутствие консенсуса обусловлено множественностью целей измерения доходов (Hansen, Kneale, 2013).

И в завершение обзора лишь обозначу еще одно направление исследований, подразумевающее сравнительный анализ разных данных и распределений доходов: сопоставление информации, полученной от самих индивидов, с ответами доверенных респондентов (proxy respondents), когда различные сведения, в том числе о доходах, сообщает кто-то другой (члены семьи, родственники, социальные работники и т.п.). В ответах доверенных респондентов больше пропусков (Bollinger, Hirsch, 2013); при сравнении с административными данными смещение ответов оказывается больше для лиц, о которых ответы давали прокси-респонденты, по сравнению с теми, кто отвечал самостоятельно. Эти ошибки измерения варьируются для разных групп: так, меньше всего смещений в ответах супругов; наибольшие смещения обнаружились в ответах прокси-респондентов об одиноких женщинах (Tamborini, Kim, 2013).

Измерение индивидуальных доходов в РМЭЗ

Что можно узнать об особенностях ответов на разные вопросы об индивидуальных доходах при «внутреннем» сопоставлении данных одного обследования, а именно Российского мониторинга экономического положения и здоровья населения? При работе с РМЭЗ для идентификации экономического статуса респондентов через личный доход, как правило, оперируют ответами на вопрос: «Попробуйте вспомнить, сколько всего денег в течение последних 30 дней Вы лично получили. Пожалуйста, посчитайте все: зарплату, пенсии, премии, прибыли, пособия, материальную помощь, случайные заработки и другие денежные поступления, в том числе и в валюте, но валюту переведите в рубли» (j60). Наряду с ним каждого взрослого спрашивают о выплатах на основном и дополнительном местах работы, о случайных приработках, о величине пенсии (для пенсионеров) и пособии по безработице (для зарегистрированных в государственной службе занятости)10. Аналогичным образом в РМЭЗ спрашивают о доходах домохозяйства: сначала подробно о поступлениях из различных источников, а затем о суммарном денежном доходе домохозяйства за последние 30 дней.

Заметим, что, во-первых, в отношении как индивидуальных, так и семейных доходов при сравнении расчетных сумм всех поступлений и суммарных оценок, которые дали респонденты, изначально не предполагается полное совпадение. В анкете домохозяйства совокупность отдельных поступлений — это, скорее, располагаемые ресурсы: респондентов спрашивают как о различных денежных поступлениях, так и о полученной в натуральном виде помощи, для которой дается денежная оценка, а суммарный доход домохозяйства определяется в анкете РМЗЭ только через полученные денежные средства. В индивидуальном вопроснике в отдельные виды личных доходов не включены, к примеру, стипендии, которые могут включаться в общую величину (j60).

Во-вторых, концептуальное разделение поступлений на индивидуальные и домохозяйственные отражено в том, о каких доходах спрашивают при заполнении индивидуальной и семейной анкет. В семейной анкете, как и в индивидуальной, есть вопросы об оплате труда, пенсиях всех членов, но вопросы о социальных и частных трансфертах — только в семейном вопроснике.

Все расчеты выполнены для респондентов 18 лет и старше, опрошено 10 020 человек (2017 г.), в остальных волнах размер подвыборки составляет от 12 953 в 2013 г. до 10 102 человек в 2016 г.

Полнота ответов на вопросы об индивидуальных доходах представлена в таблице 1. В целом масштабы «ухода от ответов» о конкретных величинах доходов в РМЭЗ малы, хотя о величине заработной платы отказываются отвечать чаще, чем о пенсиях. Затруднились или отказались сказать о совокупном личном доходе 2,9%. В четырех предшествующих волнах — в 2013—2016 гг. — из пяти отдельных видов доходов также чаще отказывались назвать размер выплат по основному месту работы 1,4 —1,6% респондентов. В 2017 г. затруднились назвать общую величину личного дохода (j60) 0,7% респондентов, отказались отвечать 1,9%; 6,3% назвали величину личного дохода, равную 0, и 90,8% респондентов назвали суммарный личный доход (для 0,3% в данной переменной отмечен вариант «нет ответа»).

Таблица 1

Полнота ответов о видах индивидуальных доходов, РМЭЗ, 2017 г. (в % по столбцам)

Ответы об индивидуальных доходах

Вид индивидуального дохода

выплаты на основном месте работы

выплаты на дополнительном месте работы

приработки

пенсия

пособие по безработице

Нет такого вида дохода

47,5

98,0

92,7

57,6

99,7

Такой доход есть, но в последние 30 дней выплат не было

2,2

0,2


0,5

0,0 (2 чел.)

Названа величина дохода

48,6

1,8

7,1

41,2

0,3

Затруднились назвать величину дохода

0,2

0,0 (2 чел.)

од

0,0 (3 чел.)


Отказались назвать величину дохода

1,3

0,0 (5 чел.)

од

0,2


Нет ответа о величине дохода

од


0,0 (2 чел.)

0,5


Итого

100

100

100

100

100

Источник: РМЭЗ НИУ ВШЭ.

В зарубежных лонгитюдных исследованиях на сравнении разницы между доходами, которые сообщают в опросах и регистрируют в административных данных, фиксируется «эффект обучения»: «Различия между источниками данных как в отношении занижения, так и завышения уменьшаются с учетом количества панельных волн, в которых принимало участие домохозяйство», хотя «происходит это потому, что респонденты чувствуют себя менее неудобно со временем, сообщая о своем доходе, или из-за лучшей подготовки и знания о своих доходах со временем, нельзя ответить на основе имеющихся данных» (Angel et al., 2018. Р. 596 — 597). На данных РМЗЭ аналогичный эффект мог бы проявляться в меньшей доле отказов сообщить величину личных доходов при большем опыте участия в обследовании, и скорее можно говорить о таком эффекте, чем о его отсутствии (табл. 2; величины стандартизованных остатков в таблице не приводятся, но свидетельствуют, что эти отличия статистически значимы).

Исключение составляет последняя волна, 2017 г., в которой новые респонденты отказываются отвечать о доходах с такой же частотой, что и самые опытные, принимавшие участие в пяти последних волнах11.

Таблица 2

Доля отказавшихся отвечать о выплатах по основному месту работы и общем личном доходе в группах с разным опытом участия в обследованиях РМЗЗ, 2013—2017 гг. (в %)

Вид дохода

Количество волн РМЭЗ, в которых участвовал респондент (из текущей и четырех предшествующих)

1

2

3

4

5

2013

Выплаты по основному месту работы (имеющие работу на момент опроса)

4,5

2,3

3,6

3,2

1,5

Общий личный доход (имеющие работу на момент опроса)

4,7

2,0

3,1

3,2

1,4

Общий личный доход (все респонденты)

3,8

2,0

2,3

2,1

0,8

2014

Выплаты по основному месту работы (имеющие работу на момент опроса)

6,2

3,6

1,4

3,5

1,9

Общий личный доход (имеющие работу на момент опроса)

6,2

3,8

1,1

3,1

1,7

Общий личный доход (все респонденты)

4,7

2,9

1,0

2,1

1,0

2015

Выплаты по основному месту работы (имеющие работу на момент опроса)

7,5

6,5

2,1

1,9

1,9

Общий личный доход (имеющие работу на момент опроса)

7,0

6,5

2,4

2,0

1,8

Общий личный доход (все респонденты)

5,4

5,0

2,7

1,3

1,1

2016

Выплаты по основному месту работы (имеющие работу на момент опроса)

6,1

6,9

5,2

2,8

2,0

Общий личный доход (имеющие работу на момент опроса)

5,3

6,9

4,5

2,9

1,9

Общий личный доход (все респонденты)

4,7

6,6

3,6

2,1

1,5

2017

Выплаты по основному месту работы (имеющие работу на момент опроса)

1,9

8,3

3,2

3,6

1,8

Общий личный доход (имеющие работу на момент опроса)

1,9

7,5

3,0

3,6

1,8

Общий личный доход (все респонденты)

1,8

5,8

2,2

2,4

1,4

Источник: РМЭЗ НИУ ВШЭ.

Сравнение композиционного и сообщенного респондентами общего личного дохода. Композиционный (расчетный) совокупный индивидуальный доход определялся как сумма пяти указанных отдельных видов доходов; информация об их наличии и величине позволяет рассчитать его для 95,6% респондентов. Чтобы минимизировать пропуски данных, в качестве расчетной величины личного дохода был принят ответ о суммарном личном доходе (j60) а) для учащихся и студентов, которые могут получать стипендию; б) для тех, кто получал один из частных видов личных доходов и не назвал его величину, но при этом

указал суммарный личный доход. Это увеличило численность респондентов, для которых определен композиционный доход, до 98,3%; для остальных это невозможно из-за отсутствия ответов. Хотя в распределении композиционного индивидуального дохода меньше пропусков, чем в суммарном, сообщенном респондентами (табл. 3), в нем больше нулевых значений, оно сдвинуто влево, а среднее и медиана — ниже. Средняя разница двух измерений индивидуальных доходов в 2017 г. составила 2523,8 руб.

Таблица 3

Описательная статистика композиционного и сообщенного респондентом личного доходов, 2017 г.

Параметр распределения

Композиционный индивидуальный доход

Суммарный личный доход, сообщенный респондентом

полное распределение

с отсечением 1% максимальных значений

полное распределение

с отсечением 1% максимальных значений

N пропущенных значений

169

(1,68%)

169 (1,70%)

288

(2,87%)

288

(2,90%)

N валидных значений

9851

(98,32%)

9753

(98,30%)

9732

(97,13%)

9629

(97,10%)

N нулевых значений

1034

1034

636

636

Среднее (руб.)

20 375,2

19 285,9

23 030,7

20 898,6

Стандартное отклонение (руб.)

19 211,4

14 372,3

47 830,4

15 182,0

Медиана (руб.)

16 600,0

16 370,0

18 000,0

17 600,0

Максимум (руб.)

500 000,0

83 500,0

2 917 500,0

98 000,0

Источник: составлено автором по данным РМЭЗ НИУ ВШЭ.

В 2017 г. для 82,5% респондентов величины суммарного, сообщенного респондентом, и композиционного (расчетного) доходов примерно совпадают12, при этом для 6,3% они равны 0; для 2,9% респондентов мы не можем сделать корректное сопоставление этих переменных из-за отсутствия ответов. Из отвечавших 14,5% указали суммарный личный доход выше, чем его расчетная величина; в их число входят 3,3% респондентов, чей расчетный индивидуальный доход равен 0, то есть у них не было доходов от труда, пенсий, пособий по безработице за 30 дней до опроса, но они включили в свой личный доход иные поступления. Ситуации, когда композиционный индивидуальный доход превышал сообщенный респондентом, в 2017 г. не зафиксированы, но в других волнах такие несовпадения были у двух-четырех респондентов.

Сравнение разных доходных переменных показало, что масштабы внутренней импутации ограничены не только невысоким числом пропусков значений, но и согласованностью отказов отвечать на разные вопросы о доходах. Так, 75,4% из тех, кто отказался назвать сумму личного дохода, отказались отвечать и на вопросы об отдельных составляющих своего дохода. Однако среди тех, кто затруднился назвать сумму личного дохода, не ответили о его составляющих 31,3%, а у 41,8% композиционный доход равен 0, то есть затруднения сообщить суммарный личный доход в большей мере связаны с отсутствием дохода, по крайней мере, в течение 30 дней перед опросом.

Самостоятельно суммируя свои доходы, респонденты РМЭЗ если и искажают их величину по сравнению с расчетной суммой отдельных поступлений, то в сторону завышения. Можно предположить, что основная причина этого не округления и неточность, а включение в сообщаемую сумму других видов доходов, кроме оплаты труда, пенсий или пособий по безработице. Если это так, то одиночки будут считать все поступления в бюджет своим индивидуальным доходом, а члены больших по размеру домохозяйств будут учитывать лишь то, что получили лично, воспринимая другие поступления (пособия, социальные выплаты, частные трансферты, доход от продажи имущества и др.) как надындивидуальную часть семейного дохода. Данные позволяют придерживаться этой гипотезы: наибольшая доля завышающих суммарный личный доход по сравнению с расчетным (композиционным) — среди членов домохозяйств с одним взрослым, и эти различия статистически значимы (табл. 4).

Таблица 4

Соотношение суммарного, сообщенного респондентом, и композиционного (расчетного) доходов для респондентов из домохозяйств разного размера, 2017 г.

Соотношение суммарного, сообщенного респондентом, и композиционного доходов

Количество в домохозяйстве взрослых 18 лет и старше

Вся совокупность

1

2

<3

Суммарный личный доход, сообщенный респондентом, и композиционный индивидуальный доход равны 0

%

1,7

5,5

8,9

6,3

стандартизованный остаток

-7,2

-2,2

6,5


Суммарный личный доход, сообщенный респондентом, и композиционный индивидуальный доход выше 0 и примерно равны (0,95х композиционный доход < j60 < 1,05 х композиционный доход)

%

69,8

77,9

76,7

76,2

стандартизованный остаток

-2,8

1,3

0,4


Суммарный личный доход, сообщенный респондентом, выше 0 и на 5,1—25% превышает композиционный доход

%

12,4

5,5

3,6

5,7

стандартизованный остаток

10,7

-0,6

-5,8


Суммарный личный доход, сообщенный респондентом, выше 0 и на 25,1% и более превышает композиционный доход

%

11,6

5,3

3,6

5,5

стандартизованный остаток

10,1

-0,7

-5,3


Суммарный личный доход, сообщенный респондентом, выше 0, но композиционный доход равен 0

%

2,4

3,4

3,6

3,3

стандартизованный остаток

-2,0

0,3

0,8


Респондент не сообщил общую величину личных доходов, сравнение с композиционным доходом невозможно

%

2,1

2,4

3,7

2,9

стандартизованный остаток

-1,7

-2,0

3,0


Итого


100

100

100

100

Источник: рассчитано автором по данным РМЭЗ НИУ ВШЭ.

Проблема измерения индивидуальных доходов в РМЭЗ в том, что лишь часть респондентов включает в суммарный личный доход иные доходы, кроме оплаты труда, пенсий или пособий по безработице. Невозможно для всей совокупности оценить масштаб ошибки измерения по данной причине, но ее наличие фиксируется на данных об индивидах из домохозяйств с одним взрослым. Если взять одиночек, у которых помимо входящих в состав композиционного дохода были еще какие-либо государственные трансферты, то для 75% сообщенный респондентом и композиционный индивидуальные доходы равны, но для 23,3% суммарный личный доход, сообщенный респондентом, в той или иной степени превышает композиционный (для остальных сравнение невозможно из-за отсутствия ответов). Четверть из этой группы респондентов учли в суммарном личном доходе дополнительные выплаты, а остальные — нет. В целом 32% всех таких превышений при ненулевых значениях каждого из вида доходов приходится на одиноких взрослых. Кроме того, высокие значения разницы этих двух измерений доходов иногда совпадают с размером поступлений от продажи имущества, что в общепринятых определениях вообще не считается доходом; у некоторых неработающих женщин в качестве личных доходов указаны величины, совпадающие с размером детских пособий, указанных в анкете домохозяйства; у части неработающих респондентов любого пола величина личных доходов совпадает с размером помощи от родственников и т.п.

Заключение

Композиционное измерение индивидуальных доходов в РМЭЗ более консистентно, позволяет работать с содержательно более определенной величиной, меньше подвержено ошибке измерения (если не затрагивать проблему занижения опросных сведений о доходах13), чем суммарный личный доход, сообщенный респондентом, но дает более низкие значения индивидуальных доходов. Отличия суммарной величины личных доходов, которые сообщают респонденты, от калькулируемой суммы поступлений обусловлены не столько неточностью суммирования и округления, сколько «концептуальными» особенностями понимания личных доходов частью респондентов. Получается, что в отношении композиционного дохода исследователи лучше понимают его состав, хотя использование общей суммы, названной респондентом, не требует дополнительных преобразований и расчетов, но плата за «легкость» работы с данной переменной — большая ошибка измерения.

Из множества возможных источников смещения опросных данных о доходах (Рогозин и др., 2006) «внутреннее сравнение» в базе РМЭЗ позволяет оценить один — как респонденты интерпретируют вопрос о «деньгах, полученных лично ими». Это сравнение ставит целью не столько предложить более «идеальный» из двух вариантов измерения доходов, сколько показать особенности разных измерений индивидуальных доходов и выявить не всегда рефлексируемый выбор показателей для анализа. Это согласуется с идеей исследовательского аудита, необходимостью сделать явными неявные решения, принятые при сборе и анализе данных (Akkerman et al., 2008). Примером такой эмпирически обоснованной рефлексии в выборе доходных переменных можно считать отказ использовать эквивалентный доход как показатель уровня жизни домохозяйств в анализе российской бедности на данных первых волн РМЭЗ (1992 — 1993 гг.). Расчеты показали, что величина эластичности потребностей домохозяйства по отношению к его размеру в это время была равна 0,9, что связано с высокой долей продовольственных расходов в семейных бюджетах. Поэтому сочли возможным пренебречь эффектом масштаба и использовать традиционные среднедушевые показатели расходов и доходов (Фоули, 1998. С. 82).

Представленное сравнение не предлагает универсального решения, какое измерение «лучше». В случае с индивидуальными доходами в РМЭЗ композиционное измерение оказалось в среднем меньше, чем суммарный доход, сообщенный респондентом, хотя в некоторых исследованиях фиксировалась обратная ситуация. Отчасти это обусловлено ограниченным набором конкретных видов личных доходов, о которых спрашивают в анкете РМЭЗ. И это, во-первых, еще раз обращает внимание на контекстуальность эмпирических закономерностей. Так, почти все сравнения опросных и административных данных показывают, что при высоких доходах выше вероятность занижения доходов, но в исследовании в Дании, рассматривающем доход в качестве фактора политического поведения, респонденты в верхней части распределения завышают свои «опросные» доходы (Hariri, Lassen, 2017. Р. 567). По мнению авторов, это объясняется социальной желательностью высоких доходов, а завышение величины сообщаемых доходов в левой части распределения более характерно для «либеральной рыночной экономики, как США, где стигма, связанная с низким доходом, сильнее, чем в таком скандинавском государстве всеобщего благосостояния, как Дания» (Hariri, Lassen, 2017. Р. 575). Международное сравнение в постсоветских странах показывает, что в целом респонденты воспринимают вопросы о доходах по-разному: так, доля тех, кто счел их очень щепетильными, колеблется в этих странах от 18 до 45% (Андреенкова, 2017. С. 60).

Во-вторых, различное понимание респондентами «доходов, полученных лично ими», особенно при разном составе домохозяйства, связано с самыми проблемными компонентами — социальными или частными трансфертами, которые лишь часть респондентов готовы счесть личными. Если, зная это, мы не имеем возможности изменить инструментарий обследования, то должны учитывать при работе с данными, при выборе показателей индивидуального экономического статуса. В целом мы хотим привлечь внимание к тому, что работа с открытыми базами данных экономит наше время на их сбор (сводя иногда эти затраты времени к нулю), но подразумевает кропотливое изучение их особенностей, не столько поиск идеальных данных, сколько понимание ограничений отдельных источников и измерений.


1 Эти и другие материалы мониторинга доступны на сайте НИУ ВШЭ: https: www. hse.ru rims

2 Вопрос звучит так: «Скажите, пожалуйста, за последние 12 месяцев какова была Ваша среднемесячная зарплата на этом предприятии после вычета налогов — независимо от того, платят Вам ее вовремя или нет?».

3 Росстат. Методика расчета показателей распределения и дифференциации по уровню доходов населения, показателей, характеризующих уровень и распространение низких доходов, https:  gks.ru storage mediabank met_4.rar

4 Росстат. Доходы, расходы и потребление домашних хозяйств, https: gks.ru folder 11110 document 13271

5 Росстат. Доходы, расходы и сбережения населения, https: gks.ru folder 13397

6 Росстат. Методологические положения по расчету показателей денежных доходов и расходов населения, https: gks.ru storage mediabank met_l.rar

7 Опрос омнибусного типа — многоцелевое обследование.

8 Возможно, после введения в действие с мая 2018 г. Генерального регламента по защите данных (The EU General Data Protection Regulation, https: eugdpr.org) увязывать опросные и административные данные будет более сложно, потребуется согласие респондентов на такие действия.

9 Авторы обозначают его как омнибусный, акцентируя внимание на том, что такая методика измерения характерна, прежде всего, для неспециализированных опросов.

10 Формулировки вопросов: «Сколько денег в течение последних 30 дней Вы получили по основному месту работы после вычета налогов и отчислений? Если все или часть денег Вы получили виностранной валюте, переведите валюту в рубли и назовите, пожалуйста, общую сумму» (j 10). И такой же вопрос задается о денежных средствах, полученных на дополнительном месте работы (j40). «Скажите, пожалуйста, в течение последних 30 дней Вы занимались (еще) какой-нибудь работой, за которую Вам заплатили или должны заплатить? Может быть, Вы сшили кому-то платье, подвезли кого-нибудь на машине, занимались репетиторством, помогли кому-то с ремонтом квартиры, машины, ухаживали за больными, продавали свои или купленные продукты или товары на рынке или на улице, челночили или делали что-то другое?» и «Сколько всего денег в течение последних 30 дней Вам заплатили за всю эту работу? Если это были разные виды работ, суммируйте. Если оплата производилась в неденежной форме, оцените, сколько это примерно будет в рублях?» (j57). «Сколько денег Вы получили в качестве пенсии в течение последних 30 дней? Пожалуйста, учитывайте и основную пенсию, и доплаты к ней» (j363). «Сколько денег Вы получили в качестве пособия по безработице в течение последних 30 дней?» (j89).

11 Необходимо отметить, что продолжительность участия в РМЭЗ (даже в течение пяти волн) коррелирует с возрастом. Так, в 2017 г. среди тех, кто участвовал в пяти волнах, доля респондентов 25 — 34 лет составляла 14,1°0, в четырех волнах — 16,5°о, а среди участвующих первый раз только в 2017 г. — 27,6°о, среди опрошенных в 2017 г. и еще какой-либо из четырех предшествующих волн — 26,6°о. Наоборот, если взять одну из старших возрастных групп, например респонденты в возрасте 65—74 года, среди опрошенных во всех пяти раундах их доля составляет 13,4°О, среди принимавших участие в четырех волнах — 13,1°о, а среди участвующих в одной-двух волнах — 7,5—7,7°о. В группах с более продолжительным опытом участия в РМЭЗ выше доля тех, кто не имеет самый проблематичный с точки зрения отказов доход — выплаты по основному месту работы, то есть эффект обучения может быть «напрасным» из-за выбытия из панели.

12 Значение суммарного дохода, который сообщил респондент, находится в диапазоне ± 5% от величины композиционного дохода.

13 Сравнение доходов по данным РМЭЗ и Росстата показывает, что в мониторинге они ниже, чем в статистике (Воронин и др., 2018. С. 31).


Список литературы / References

Алашеев С. Ю. (2015). Недостоверность ответов респондентов в вопросах о доходах Социологический журнал. Том 21. № 3. С. 29 — 44. [Alasheev S. Yu. (2015). Veracity of the respondents’ answers to the questions on income. Sotsiologicheskiy Zhurnal, Vol. 21, No. 3, pp. 29 — 44. (In Russian).]

Андреенкова A. B. (2017). Щепетильные вопросы в межстрановых сравнительных опросах Социологические исследования. № 12. С. 55 — 64. [Andreenkova А. V. (2017). Sensitive questions in cross-national comparative surveys. Sociologicheskie Issledovaniya, No. 12, pp. 55 — 64. (In Russian).]

Воронин Г. Л., Козырева П. М., Косолапов М. С., Низамова А. Э., Сивкова И. В., Смирнов А. И., Соколова С. Б., Тонне Е. И. (2018). Динамика социально-экономического поведения российских домохозяйств (1994—2016 гг.) Вестник Российского мониторинга экономического положения и здоровья населения НИУ ВШЭ (RLMS-HSE). Вып. 8. М.: НИУ ВШЭ. С. 8-99. [Voronin G. L., Kozyreva Р. М., Kosolapov М. S., Nizamova А. Е., Sivkova I. V., Smirnov А. I., Sokolova S. В., Tonis Е. I. (2018). Dynamics of socio-economic behavior of Russian households (1994—2016). Bulletin of the Russia Longitudinal Monitoring Survey — Higher School of Economics (RLMS-HSE), Issue 8, pp. 8 — 99. (In Russian).] https: doi.org 10.17323 978-5-7598-1825-0_8-99

Денисова И. A. (2007). Отдача на уровни, типы и качество образования Заработная плата в России: эволюция и дифференциация Под ред. В. Е. Гимпельсона, Р. И. Капелюшникова. М.: Изд. дом ГУ ВШЭ. С. 343 — 402. [Denisova I. А. (2007). The return to levels, types and quality of education. In: V. E. Gimpelson, R. I. ICapelyushnikov (eds.). Wages in Russia: evolution and differentiation. Moscow: HSE Publ., pp. 343 — 402. (In Russian).]

Жаромский B.C., Рудберг A.M., Тер-Акопов С.A. (2015). Методы восстановления генерального распределения душевых денежных доходов населения на основе выборочных данных большого объема Вопросы статистики. № 6. С. 12—23. [Zharomskiy V. S., Rudberg А. М., Ter-Akopov S. А. (2015). Methods of restoring the per-capita income distribution in large samples to generalized population levels. Voprosy Statistiki, No. 6, pp. 12—23. (In Russian).]

Лукьянова А. Л. (2007). Динамика и структура неравенства по заработной плате (1998—2005 гг.) Заработная плата в России: эволюция и дифференциация Под ред. В. Е. Гимпельсона, Р. И. Капелюшникова. М.: Изд. дом ГУ ВШЭ. С. 486 — 546. [Lukyanova A.L. (2007). Dynamics and structure of wage inequality (1998-2005). In: V. E. Gimpelson, R. I. ICapelyushnikov (eds.). Wages in Russia: evolution and differentiation. Moscow: HSE Publ., pp. 486—546. (In Russian).]

Лукьянова А. Л. (2017). Мобильность по заработной плате: до глобального кризиса и после Мобильность и стабильность на российском рынке труда Под общ. ред. Р. И. Капелюшникова, В. Е. Гимпельсона. М.: Издательский дом НИУ ВШЭ. С. 292 — 334. [Lukyanova A. L. (2017). Wage mobility: before and after the global crisis. In: V. E. Gimpelson, R. I. ICapelyushnikov (ed.). Mobility and stability in the Russian labor market. Moscow: HSE Publ., pp. 292 — 334. (In Russian).]

Рогозин Д., Мануильская К., Климов И. (2006). Тестирование вопросов о доходе Социальная реальность. № И. С. 103—115. [Rogozin D., Manuilskaya К., Klimov I. (2006). Income Questions Testing. Socialnaya Realnost, No. 11, pp. 103 — 115. (In Russian).]

Европейская экономическая комиссия ООН (2007). Статистика на основе регистров в Североевропейских странах. Обзор передовых методик с уделением основного внимания на статистику населения и социальной статистике. Женева: ООН. [UNECE. (2007). Register-based statistics in the Nordic Countries. Review of best practices with focus on population and social statistics. New-York, Geneva: United Nations.] http: www.unece.org index.php?id=17470

Фоули М. (1998). Статический и динамический анализ бедности в России Бедность в России. Государственная политика и реакция населения Под ред. Дж. Клугман. Вашингтон: Всемирный Банк. С. 75 — 105. [Foley М. С. (1997). Poverty in Russia: Static and Dynamic Analyses. In: J. IClugman (ed.). Poverty in Russia: Public policy and private responses. EDI Development Study. Washington, DC: World Bank, pp. 65 — 90.]

Abowd J. M., Stinson M. H. (2013). Estimating measurement error in annual job earnings: A comparison of survey and administrative data. Review of Economics and Statistics, Vol. 95, No. 5, pp. 1451 — 1467. https: doi.org 10.1162 REST_a_00352 Akkerman S., Admiraal W., Brekelmans M., Oost H. (2008). Auditing Quality of Research in Social Sciences. Quality & Quantity, Vol. 42, pp. 257—274. https: doi.org 10.1007 S11135-006-9044-4

Angel S., Heuberger R., Lamei N. (2018). Differences between household income from surveys and registers and how these affect the poverty headcount: Evidence from the Austrian SILC. Social Indicators Research, Vol. 138, No. 2, pp. 575 — 603. https: doi.org 10.1007 sll205-017-1672-7

Bollinger C. R., Hirsch В. T. (2013). Is earnings nonresponse ignorable? Review of Economics and Statistics, Vol. 95, No. 2, pp. 407—416. https: doi.org 10.1162 REST_a_00264

Davern M., Rodin EL, Beebe T. J., Call К. T. (2005). The effect of income question design in health surveys on family income, poverty and eligibility estimates. Health Services Research, Vol. 40, No. 5, pp. 1534 —1552. https: doi.org 10.1111 j.1475-6773.2005.00416.x

Duncan G. J., Petersen E. (2001). The long and short of asking questions about income, wealth, and labor supply. Social Science Research, Vol. 30, No. 2, pp. 248—263. https: doi.org 10.1006 ssre.2000.0696

Hansen K., Kneale D. (2013). Does how you measure income make a difference to measuring poverty? Evidence from the UK. Social Indicators Research, Vol. 110, No. 3, pp. 1119-1140. https: doi.org 10.1007 sll205-011-9976-5

Hariri J. G., Lassen D. D. (2017). Income and outcomes: Social desirability bias distorts measurements of the relationship between income and political behavior. Public Opinion Quarterly, Vol. 81, No. 2, pp. 564—576. https: doi.org 10.1093 poq nfw044

Kim C., Tamborini C. R. (2014). Response error in earnings: An analysis of the survey of income and program participation matched with administrative data. Sociological Methods & Research, Vol. 43, No. 1, pp. 39—72. https: doi.org 10.1177 0049124112460371

Kreiner С. T., Lassen D. D., Leth-Petersen S. (2015). Measuring the accuracy of survey responses using administrative register data: Evidence from Denmark. In: C. D. Carroll, T. F. Crossley, J. Sabelhaus (ed.). Improving the measurement of consumer expenditures. Chicago: University of Chicago Press, pp. 289 — 307. http: doi.org 10.7208 Chicago 9780226194714.003.0011

Jansen W., Verhoeven W.-J., Robert P., Dessens J. (2013). The long and short of asking questions about income: A comparison using data from Hungary. Quality and Quantity, Vol. 47, No. 4, pp. 1957—1969. https: doi.org 10.1007 slll35-011-9636-5

Meyer B. D., Mok W. К. C., Sullivan J. X. (2015). Household surveys in crisis. Journal of Economic Perspectives. Vol. 29, No. 4, pp. 1—29. https: doi.org 10.1257 jep.29.4.199

Micklewright J., Schnepf S.V. (2010). How reliable are income data collected with a single question? Journal of the Royal Statistical Society. Series A: Statistics in Society, Vol. 173, No. 2, pp. 409-429. https: doi.org 10.1111 j.l467-985X.2009.00632.x

Moore J., Stinson L. L., Welniak Jr. E. J. (2000). Income measurement error in surveys. Journal of Official Statistics, Vol. 16, No. 4, pp. 331 — 361.

Schrapler J.-P. (2004). Respondent behavior in panel studies: A case study for income nonresponse by means of the German Socio-Economic Panel (SOEP). Sociological Methods and Research, Vol. 33, No. 1, pp. 118 — 156. https: doi.org 10.1177 0049124103262689

Slemrod J. (2016). Caveats to the research use of tax-return administrative data. National Tax Journal, Vol. 69, No. 4, pp. 1003 — 1020. https: doi.org 10.17310 ntj.2016.4.13

Tamborini C. R., Kim C. (2013). Are proxy interviews associated with biased earnings reports? Marital status and gender effects of proxy. Social Science Research, Vol. 42, No. 2, pp. 499 — 512. https: doi.org 10.1016 j.ssresearch.2012.11.004

Valet P., Adriaans J., Liebig S. (2019). Comparing survey data and administrative records on gross earnings: nonreporting, misreporting, interviewer presence and earnings inequality. Quality and Quantity, Vol. 53, No. 1, pp. 471 — 491. https: doi.org 10.1007 slll35-018-0764-z

Ziliak J. P. (2015). Income, program participation, poverty, and financial vulnerability: Research and data needs. Journal of Economic and Social Measurement, Vol. 40, No. 1-4, pp. 27-68. https: doi.org 10.3233 JEM-150397