Экономика » Теория » «Рандомисты»: новая экономика развития

«Рандомисты»: новая экономика развития

Р. И. Капелюшников


«Рандомистами» А. Дитон окрестил сторонников нового направления в экономике развития (development economics), которые считают, что любые программы борьбы с бедностью в развивающихся странах должны основываться на технике рандомизированных контролируемых испытаний/экспериментов (randomized controlled trials, RCT), причем не в лабораторных, а в полевых условиях (Deaton, 2006).

Взлет нового движения был стремительным: возникнув на волне «эмпирического поворота» в экономической науке на рубеже 1990—2000-х годов, оно быстро завоевало широкое признание среди не только академических исследователей, но и политиков, неправительственных организаций (НПО) и международных агентств, занимающихся оказанием помощи бедным странам. Практически мгновенно оно стало не просто частью, но передним краем экономического мейнстрима. RCT были признаны «золотым стандартом» при изучении истоков бедности и оценке программ борьбы с ней. За считанные годы сформировалось глобальное сообщество рандомистов: существуют десятки международных центров, организующих и финансирующих проведение RCT. В дальнейшем мы будем обозначать данную исследовательскую программу терминами «новая экономика развития» и «экономика RCT», рассматривая их как синонимичные.

Успех нового направления был поистине ошеломляющим: по имеющимся оценкам, с начала 2000-х годов наблюдался 30-кратный рост числа академических публикаций с использованием рандомизированных контролируемых экспериментов по сравнению с двумя предыдущими десятилетиями (Ravallion, 2020). Вебсайт одного из главных рандомистских центров — Лаборатории борьбы с бедностью имени А.-Л. Джамиля (J-PAL)1, созданной в 2003 г. при Массачусетском технологическом институте, содержит информацию о 1000 с лишним RCT, проведенных более чем в 80 странах (de Cler, 2021). В последнее время при оценке эффективности проектов, осуществляемых Всемирным банком, метод рандомизации использовался в двух случаях из трех (Bedecarrats et al., 2019). Требование проводить RCT все чаще выдвигается как обязательное условие при выделении средств на новые программы борьбы с бедностью. Оценивание проектов с использованием RCT в качестве идеальной модели превратилось в настоящую индустрию, куда ежегодно вкладывают сотни миллионов долларов из разных источников (Bedecarrats et al., 2019).

Сторонники метода рандомизации расценивают его проникновение в экономические исследования как научную революцию: «Создание культуры, в которой поощряются, продвигаются и финансируются строгие рандомизированные оценки, может революционизировать социальную политику в XXI в. точно так же, как рандомизированные испытания произвели революцию в медицине в XX в.» (Duflo, Kremer, 2008. Р. 117; здесь и далее перевод мой. — Р. К.). Иллюстрацией того, как далеко простираются притязания сторонников нового подхода, может служить название книги австралийского экономиста Э. Ли: «Рандомисты: как радикальные исследователи меняют мир» (Leigh, 2018). Речь, как видим, идет не просто о новом понимании реальности, но о ее радикальном преобразовании на практике. Прогресс в теории и политике развития рандомисты связывают с систематическим накоплением экспериментальных данных на уровне отдельных точечных интервенций. Конечная цель движения — создание универсальной базы данных о «хороших» и «плохих» формах политики развития, чтобы правительства и частные спонсоры могли делать осознанный выбор на основе полного списка «того, что работает» и «того, что не работает» (Labrousse, 2020). Когда в распоряжении лиц, принимающих решения, благодаря RCT появятся неопровержимые научные доказательства, они будут вынуждены проводить правильную политику: «неработающие» программы будут выводиться из употребления, а «работающие» — повсеместно внедряться. По подсчетам самих рандомистов, программы, основанные на результатах их исследований, охватили уже более 400 млн жителей развивающихся стран (Ениколопов, 2020).

Публичным признанием научных и практических достижений новой экономики развития стало присуждение в 2019 г. Нобелевской премии по экономике трем ведущим рандомистам — Э. Дюфло, А. Банерджи и М. Кремеру. Они получили премию «за их экспериментальный подход к сокращению глобальной бедности», а также за то, что «превратили экономику развития — раздел, изучающий причины глобальной бедности и способы борьбы с ней, — в бурно растущую, преимущественно экспериментальную область исследований». По заключению Нобелевского комитета, «теперь у нас есть большое количество конкретных данных о конкретных механизмах, лежащих в основе бедности, и конкретных мерах по ее преодолению», что «значительно улучшило нашу способность бороться с бедностью на практике» (Royal Swedish Academy of Sciences, 2019)2.

Однако с такой панегирической оценкой согласны далеко не все. У новой экономики развития есть немало последовательных оппонентов, подвергающих ее жесткой критике по множеству оснований — от чисто технических до политических. Так, лауреат Нобелевской премии по экономике Дж. Хекман характеризует энтузиазм по поводу RCT как «квазирелигиозный» (Heckman, 2020), а другой нобелевский лауреат Дитон вместе с соавтором Н. Картрайт пишут о подверженности рандомистов «магическому мышлению», отмечая, что они ставят метод впереди содержания (Deaton, Cartwright, 2018). Одному из ведущих экспертов в области экономики развития, британскому экономисту Л. Притчетту всеобщее увлечение рандомизацией представляется «помешательством» (madness) (Pritchett, 2020). Новозеландский экономист Р. Пичиотто сравнивает рандомистов с адептами новой «истинной веры»: «Они испытывают моральную уверенность в своей правоте и не готовы принимать доказательства, противоречащие открывшейся им истине. Они исключают другие точки зрения, предпочитая общаться с другими истинно верующими и пытаясь преодолевать сопротивление неверующих путем их исключения» (Picciotto, 2020. Р. 260).

Интеллектуальное противостояние в экономике развития длится уже не одно десятилетие. Как и почему такое могло произойти? Каковы перспективы выхода из создавшегося концептуального клинча? Что может ожидать экономику развития в обозримом будущем? Чтобы ответить на эти вопросы, мы рассмотрим методологические и содержательные аспекты экономики RCT, а также представим основные контраргументы, выдвигаемые ее критиками.

Общая характеристика

Широкому использованию RCT в рамках новой экономики развития способствовал опыт медико-биологических исследований, где новые лекарства и методы лечения, прежде чем быть рекомендованными к применению на практике, проходят обязательную проверку на эффективность в ходе двойных слепых рандомизированных испытаний. «В XX в. клинические испытания, — отмечала Дюфло, — произвели революцию в медицинской практике. К сожалению, это не относится к политическим мерам в области образования и здравоохранения. Часто такие меры не подвергаются тщательной оценке до того, как они начнут широко применяться... Можно, однако, при оценивании пилотных программ в области образования и здравоохранения черпать вдохновение в клинических испытаниях» (цит. по: Favereau, 2016. Р. 203). Рандомисты убеждены, что подобно тому, как существует доказательная (evidence-based) медицина, должна существовать и доказательная экономика, олицетворение которой они видят в RCT (Favereau, 2016)3. Новая экономика развития претендует на то, чтобы положить конец затяжным теоретическим спорам по поводу стратегии помощи развивающимся странам, снабдив их политиков надежным, научно обоснованным руководством к действию — конкретными рецептами, эффективность которых подтверждена экспериментально.

Интеллектуальный фон. Победному маршу экономики RCT содействовали несколько обстоятельств. Первое — кризисное состояние традиционной («старой») экономики развития. Многочисленные макроэкономические исследования не смогли выявить устойчивой связи между объемами помощи, типами проводимой экономической политики и темпами роста развивающихся стран. В ретроспективе экономика развития предстает длинной чередой интеллектуальных мод, когда одна предлагаемая «волшебная палочка» сменяла другую, что оборачивалось постоянным шараханьем из стороны в сторону: от планирования — к развитию инфраструктуры и человеческому капиталу, от них — к структурным реформам, улучшению здравоохранения и социальному капиталу, затем — к защите окружающей среды и вновь к развитию инфраструктуры, причем этот процесс вряд ли сопровождался прогрессирующим накоплением научного знания (Deaton, 2010). Новая экономика развития отказалась участвовать в бесплодных теоретических дебатах, сосредоточившись на решении конкретных практических проблем развивающихся стран: «Слишком часто политика развития основывалась на очередной моде, тогда как рандомизированные оценки смогут помочь ей основываться на доказательствах» (Duflo, 2005. Р. 208).

Второе — это глубокое разочарование в способности Всемирного банка, главного интеллектуального и финансового центра по оказанию помощи развивающимся странам, извлекать уроки из собственных проектов, оценивать их эффективность и предлагать убедительные доказательства того, что они действительно обеспечивают устойчивый экономический рост и сокращение бедности (Deaton, 2010). Провал многих макрореформ в развивающихся странах привел к взрывному росту популярности микропроектов, оказавшихся в центре внимания новой экономики развития. В отличие от макрореформ, такие узкоцелевые проекты поддаются предварительному тестированию с помощью RCT, что в глазах рандомистов служит важнейшим аргументом в их пользу.

Третье — резко возросшее среди экономистов недоверие к традиционным (неэкспериментальным) методам эконометрического анализа, не оправдавшим надежд из-за неспособности решить проблему идентификации, то есть выявления причинно-следственных связей (Bedecarrats et al., 2019). Метод рандомизации открывал выход из этого тупика, обещая перейти от фиксации корреляций к установлению каузальных эффектов. Поскольку, как показал опыт, феномен экономического роста «сопротивлялся» получению однозначных каузальных объяснений, новая экономика развития сделала главный акцент на феномене бедности, который поддается им намного лучше.

В результате можно говорить о нескольких принципиальных отличиях «новой» экономики развития от «старой»:

  1. переориентация от исследований преимущественно на макроуровне к исследованиям на микроуровне, от разработки и оценки крупномасштабных реформ — к разработке и оценке точечных локальных интервенций («миниатюрных проектов»; см.: Heckman, 2020);
  2. переход от обсервационных методов анализа на базе наблюдений к экспериментальным методам, основанным на полевых испытаниях, от «предположительных» (некаузальных) — к «доказательным» (каузальным) выводам;
  3. пересмотр общей стратегии развития, когда главным объектом интереса вместо проблемы экономического роста становится проблема бедности, что предполагает переадресацию основной части помощи — от всего населения развивающихся стран к их беднейшим слоям (Pritchett, 2020).

Еще одно важное отличие прямо связано с предыдущими. Дело в том, что «старая» и «новая» экономики развития строятся на разных — по природе и качеству — эмпирических данных. «Старая» экономика развития чаще всего оперировала агрегированными показателями из различных международных баз данных, причем из-за плохой организации статистики в развивающихся странах они часто оказывались сомнительного качества (Jerven, 2015). Из-за дефицита качественных данных экономика развития не пользовалась среди академических исследователей большим авторитетом. В этих условиях молодые экономисты нечасто решались связывать с ней свою будущую карьеру. «Новая» экономика развития строится на использовании новых, не существовавших ранее индивидуальных данных, которые она получает в ходе экспериментов. Резкое улучшение качества эмпирических данных способствовало перемещению этого раздела экономической науки на лидерские позиции, сделав его чрезвычайно привлекательным для молодых поколений экономистов.

Экспериментальный характер. С методологической точки зрения экономику RCT можно рассматривать как наиболее полное и последовательное выражение тренда к превращению экономической науки в экспериментальную дисциплину — тренда, активно заявившего о себе в последние десятилетия (Капелюшников, 2021). Современные экономисты полностью отказались от давнего представления о том, что эксперименты в экономике невозможны4. Многие из них готовы идти даже дальше, наделяя статусом научных фактов только и исключительно экспериментальные данные. В сегодняшней экономической науке развернулась настоящая «охота за причинами»: достоверное установление причины того или иного явления практически гарантирует исследованию широкое признание и высокий научный статус5.

Экономика RCT представляет собой едва ли не самое яркое проявление этого эксперименталистского крена, поскольку задает максимально высокие стандарты строгости и достоверности, аналогичные тем, что приняты в естественно-научных дисциплинах. В отличие от стандартных (обсервационных) методов эмпирического анализа, для которых установление точных причинно-следственных связей всегда оставалось нерешаемой задачей, рандомизированные испытания, как считается, способны достоверно выявлять и оценивать каузальные эффекты. Многие рандомисты воспринимают RCT не просто как самый научный, но как единственно научный метод из всех, имеющихся в распоряжении экономистов: «Когда мы говорим о строгих доказательствах, то имеем в виду... свидетельства рандомизированных экспериментов» (Banerjee, 2006. Р. 8). Например, в меню методов, одобряемых Лабораторией J-PAL, RCT не просто занимают верхнюю строчку: на самом деле ничего, кроме них, в этом меню нет. Показательно, что когда Всемирный банк начал активно внедрять RCT для оценки своих проектов, в ведущем медицинском журнале «Lancet» появилась редакционная статья, извещавшая о том, что «Всемирный банк наконец-то обратился к науке» (Lancet, 2004. Р. 731).

Отсюда одна из ключевых идей экономики RCT — идея иерархии методов (Imbens, 2010). Речь идет о ранжировании методов эмпирического анализа в зависимости от того, насколько они способны без смещений идентифицировать каузальные эффекты. Исходя из этого критерия на вершине иерархии оказываются RCT, а все остальные методы рассматриваются как имеющие лишь небольшую научную ценность или не имеющие ее вообще. Согласно идее иерархии методов, доказательства без рандомизации не достойны считаться доказательствами или, по меньшей мере, «строгими» доказательствами (Deaton, 2020). Девиз рандомистов — «один хороший эксперимент побивает тысячу плохих регрессий» (Pritchett, Sandefur, 2013). Или в иной формулировке: «Обсервационные исследования предполагают, рандомизированные эксперименты располагают» (Deaton, Cartwright, 2018. Р. 5).

Как следствие, в глазах рандомистов RCT предстают «золотым стандартом», которому все другие методы заведомо и безнадежно проигрывают (Favereau, Nagatsu, 2020). Соответственно в случаях, когда результаты применения иных методов расходятся с результатами применения RCT, предпочтение должно отдаваться последним. Неявно это подразумевает, что в идеале экономистам вообще следовало бы пользоваться только ими, полностью отказавшись от любых неэкспериментальных подходов, которые несостоятельны по определению (естественные эксперименты — единственный альтернативный метод, для которого рандомисты готовы делать исключение; Banerjee, 2006). RCT — это настоящая наука, все остальное — ненаука или, в лучшем случае, полунаука.

Установка на атеоретичность. В эпистемологической перспективе экономика RCT предстает как предельно атеоретический, ультра-эмпиристский подход (Favereau, 2016). Свобода от теории рассматривается в ней не как недостаток, а как достоинство, поскольку позволяет предлагать эффективные средства борьбы с глобальной бедностью, не погрязая в бесконечных концептуальных спорах (Deaton, Cartwright, 2018). Теория, по их мнению, плохой советчик при проведении экспериментов: она только запутывает дело, мешая успешной борьбе с бедностью (Банерджи, Дюфло, 2021). Идеал рандомистов — пусть данные говорят сами за себя (Deaton, 2020).

Превосходство RCT над другими методами чаще всего связывают именно с тем, что они позволяют идентифицировать каузальные эффекты, не прибегая ни к каким априорным предположениям и используя лишь закон больших чисел (подробнее об этом см. ниже; Ravallion, 2020). Утверждается: чтобы сделать из рандомизированного эксперимента достоверный каузальный вывод, не требуется никаких предварительных теоретических знаний. Это позволяет обходить одно из главных возражений против использования эконометрических методов анализа, состоящее в том, что они вынуждены опираться на неправдоподобные экономические модели, далекие от реальности (Deaton, 2010). Сторонники метода рандомизации отказываются планировать и проводить эксперименты, отталкиваясь от эксплицитно выраженных теоретических идей. Они не устают подчеркивать, что RCT имеют «беспредпосылочный» характер и не нуждаются в предположениях ни о структуре причинно-следственных связей, ни о включении или невключении в анализ различных переменных, ни о функциональной форме эмпирических зависимостей, ни о выборе той или иной теоретической модели.

В менее жесткой формулировке можно сказать, что по вопросу о необходимости теории экономика RCT занимает агностическую позицию — во всяком случае, до получения необходимых экспериментальных данных (Favereau, Nagatsu, 2020). По мнению рандомистов, если теория вообще нужна, то она должна следовать за результатами экспериментов, а не предшествовать им (Banerjee, 2005). Время для построения теорий, полагают они, наступит, когда будет накоплен достаточный массив экспериментальных данных, что даст возможность приступить к их обобщению. Пока задача состоит в том, чтобы копить эмпирические факты, а уже потом надо пытаться теоретизировать на их основе (Favereau, 2016).

В достаточно редких случаях, когда рандомисты все же вспоминают о теории, они понимают под ней нечто иное по сравнению с тем, как она определяется обычно. Речь идет не о генерализациях высокого уровня, а скорее о психологических эффектах в духе поведенческой экономики. Наглядный пример дают знаменитые эксперименты П. Дюпас с противомоскитными сетками, защищающими от заболевания малярией (Cohen, Dupas, 2010; Dupas, 2014). Исследователи попытались оценить, как краткосрочные субсидии домохозяйствам отражаются на их долгосрочном спросе на такие сетки. Дело в том, что противомоскитные сетки нужно менять каждые 6 — 12 месяцев. Поэтому важно знать, как поведут себя индивиды после того, как истечет срок действия программы помощи и им придется приобретать сетки уже за свой счет. Что эффективнее с этой точки зрения — бесплатная раздача противомоскитных сеток или их продажа по ничтожно низкой (иными словами, субсидируемой), но все же не нулевой цене? Если доминирует эффект привыкания, то, привыкнув получать сетки даром, индивиды станут в будущем отказываться покупать их за свой счет: бесплатная раздача будет действовать как отрицательный стимул. Если доминирует эффект обучения, то, убедившись на опыте в полезности противомоскитных сеток, индивиды станут охотнее приобретать их в будущем даже за полную цену: бесплатная раздача будет действовать как положительный стимул. Эксперименты Дюпас показали, что бесплатная раздача действительно активизирует долговременный спрос на противомоскитные сетки, отсюда был сделан вывод о преобладании эффекта обучения над эффектом привыкания. В данном случае не так важно, что сами предполагаемые психологические эффекты прямо не тестировались и суждения о них выносились исходя из косвенных свидетельств. Важнее, что такого рода предположения едва ли можно называть «теорией» в традиционном смысле или, во всяком случае, «высокой теорией»: если это и теория, то, выразимся аккуратно, «теория без теорем».

В итоге общую исследовательскую установку рандомистов можно охарактеризовать как стремление «держаться от теории подальше» (Favereau, Nagatsu, 2020).

Практическая программа. Если говорить о практической программе новой экономики развития, то свою главную миссию она усматривает в том, чтобы находить эффективные средства для смягчения остроты проблемы бедности в развивающихся странах, опираясь на эмпирические свидетельства рандомизированных экспериментов. «Старая» экономика развития действовала фактически вслепую, полагаясь на предложения, эффективность которых не была известна ex ante и, более того, чаще всего не оценивалась даже ex post. «Новая» экономика развития считает проверку любых потенциальных интервенций строго обязательной, причем производить ее следует не ex post, a ex ante — на материале пилотных проектов, еще до попыток внедрения этих интервенций в полном объеме. Так, Банерджи обвинил Всемирный банк в «институциональной лености» и «сопротивлении новым знаниям», указав, что деятельность Банка демонстрирует «поразительное отсутствие различия между стратегиями, основанными на твердых доказательствах, полученных с помощью RCT или естественных экспериментов, и всем тем, что таких доказательств лишено» (Banerjee, 2006. Р. 8).

Иными словами, новая экономика развития стремится получать надежные эмпирические свидетельства эффективности программ помощи развивающимся странам, а затем предлагать эти свидетельства в качестве руководства к действию правительствам, международным институтам и частным благотворительным фондам (Favereau, Nagatsu, 2020). Отсюда еще одна ключевая для нее идея, что именно RCT способны отделять «то, что работает» от «того, что не работает». Нет сомнений, что и политикам, и широкой публике подобная установка должна импонировать: фактически им внушают мысль, что арсенал новой экономики развития состоит исключительно из вмешательств с подтвержденной эффективностью, раз предварительно все они успешно прошли проверку в ходе рандомизированных испытаний.

Но экономика RCT — это не просто определенная техника выработки, анализа и оценки рекомендаций: за ней стоит иная философия развития, принципиально отличная от доминировавшей на протяжении предшествующих десятилетий. Когда речь идет о реформах в масштабе всей экономики или целых секторов, проведение рандомизированных экспериментов становится технически, организационно и финансово невозможным. Соответственно сфера применения RCT ограничивается исключительно точечными локальными проектами, нацеленными на решение конкретных проблем конкретных групп населения (скажем, предоставление жителям тропических стран противомоскитных сеток, дегельминтизация детей, борьба с абсентеизмом школьных учителей и т. д.). Поэтому в новой экономике развития философия «больших дел», охватывающих все общество, оказывается вытеснена философией «малых дел», адресуемых исключительно беднейшим слоям населения.

Стратегию постепенного накопления небольших изменений рандомисты характеризуют как «тихую революцию»: «Значительный прогресс в решении самой большой мировой проблемы [бедности] может быть достигнут постепенно, небольшими шагами, каждый из которых хорошо продуман, тщательно протестирован и разумно реализован... Подобные постепенные изменения будут иметь постоянный и нарастающий характер. Они могут стать началом тихой революции» (Банерджи, Дюфло, 2021. С. 40, 395). В итоге для стороннего наблюдателя экономика RCT предстает как чрезвычайно привлекательное сочетание научной строгости, идеологической нейтральности и делового прагматизма.

Дизайн и логика RCT

Дизайн и логика RCT во многом отличны от дизайна и логики «стандартных» (лабораторных) экспериментов. Условно схему «стандартного» эксперимента можно описать так. Обозначим состояние объекта до оказания на него некоего воздействия Т как А0, а после — как А1 Сравнивая состояние объекта в моменты времени t0 и t1 можно получить ответ на вопрос, произвело воздействие Т какое-либо изменение в объекте А или нет. Разница в его состоянии в моменты времени t0 и t1 будет мерой каузального эффекта, вызванного Т. Конечно, при проведении эксперимента нужно изолировать объект от любых иных потенциальных воздействий, помимо воздействия T: только в таком случае будет корректно сказать, что оказанное воздействие есть причина, а измененное состояние объекта — следствие. Без изоляции от внешней среды выявить каузальный эффект Т невозможно.

RCT строятся иначе. Вместо того чтобы сравнивать состояние объекта А в момент времени t1 с его состоянием в момент времени t0, состояние объекта А в момент времени t1 сравнивается с состоянием аналогичного объекта В («объекта-близнеца», не имеющего систематических отличий от А) также в момент времени t1. При этом по условиям эксперимента в момент времени t0 воздействие оказывают только на А, а с его «объектом-близнецом» В никаких манипуляций не производят, предоставляя его «самому себе». Сравнивая состояния А и В в момент времени t1 можно получить ответ на вопрос, было ли воздействие Т причиной измененного состояния А. Каузальный эффект (Е), измеряющий силу воздействия Т на А, будет определяться как разность между значениями А и В в момент времени t1:

Е = А1 - В1

Огромное преимущество такого «нестандартного» дизайна в том, что он не требует изоляции объекта от влияния сторонних факторов, которые могут заявлять о себе параллельно с воздействием Т (во многих случаях это бывает физически невозможно). Хотя они могут действовать одновременно с Т, это не будет порождать смещений, поскольку вызванные ими изменения в «объектах-близнецах» Аи В будут идентичными. Соответственно вычитая из значения А в момент времени t1 значение В также в момент времени t1 можно полностью элиминировать возможное влияние любых других привходящих факторов. Поскольку изначально между сравниваемыми «объектами-близнецами» не было никаких систематических различий, остается единственная причина, которая была способна породить возникшую между А и В разницу: воздействие Т, оказанное на объект А, но не на объект В.

Ключевая проблема, возникающая в подобном контексте: каким образом можно сформировать «объекты-близнецы», между которыми в момент времени t0 не будет никаких систематических различий (или они окажутся чисто случайными)? В полевых экспериментах формирование «объектов-близнецов» обеспечивается методом рандомизации. Во-первых, из рассматриваемой популяции случайным образом формируется выборка. Во-вторых, она также случайным образом разбивается на две группы — экспериментальную, на которую затем оказывается воздействие, и контрольную, на которую его не оказывают6. При условии, что выборка достаточно велика, закон больших чисел гарантирует, что до оказания воздействия сравниваемые группы окажутся идентичными по средним значениям их наблюдаемых и ненаблюдаемых характеристик, если не считать стохастических ошибок.

По сути, рандомизация действует как процедура устранения систематических различий между экспериментальной и контрольной группами. Соответственно любое различие, возникшее после оказания воздействия, может быть отнесено только на его счет. Таким простым способом RCT позволяют избавляться от статистических искажений, неизбежно возникающих при использовании других эконометрических методов. Вычитая из результата для экспериментальной группы результат для контрольной, мы получаем несмещенную (очищенную от влияния всех прочих факторов) оценку каузального эффекта, порожденного нашим вмешательством. Это открывает возможность оценивать как величину среднего эффекта воздействия (average treatment effect — АТЕ), так и его статистическую значимость, не прибегая к сложным техническим процедурам. АТЕ рассчитывается просто как разность средних значений двух распределений (для экспериментальной и контрольной групп). Таким образом, чтобы сделать из RCT каузальный вывод, достаточно просто сравнить два средних значения.

Здесь, однако, следует уточнить, что утверждение об идентичности экспериментальной и контрольной групп не предполагает их полного совпадения на уровне индивидуальных единиц: речь идет лишь о равенстве на уровне их средних характеристик (математического ожидания). В этом смысле метафора про «объекты-близнецы», конечно, не вполне точна. RCT позволяют оценивать средний эффект воздействия, но оставляют за скобками вопрос об его индивидуальных эффектах. Одно и то же значение АТЕ может быть получено при разных вариантах распределения индивидуальных эффектов: если интервенция оказала положительное воздействие на всех участников экспериментальной группы, если она оказала положительное воздействие (только более значительное) лишь на одну их половину, но не отразилась на другой, если она оказала положительное воздействие (еще более сильное) на одну половину и отрицательное (слабое) на другую, и т. д.

По этой причине в интерпретации результатов RCT имеет место интересная асимметрия. Если оценка АТЕ значимо отличается от нуля, то это свидетельствует о том, что нам удалось идентифицировать каузальный эффект интервенции Т. Но обратное неверно. Если АТЕ равен нулю, то отсюда не следует, что воздействие Т никак не отразилось на поведении индивидов из экспериментальной группы: возможно, на одну их половину оно повлияло со знаком плюс, а на другую — со знаком минус, и соответствующие эффекты нейтрализовали друг друга.

Нетрудно догадаться, почему оценки среднего эффекта воздействия обладают огромной привлекательностью для всех, кто вовлечен в разработку и реализацию программ для развивающихся стран, — политиков, государственных чиновников, международных агентств, частных благотворительных фондов. Во-первых, такие оценки оставляют впечатление точного экспериментального знания причинно-следственных связей, позволяющего надежно отделять работающие программы от неработающих, причем это знание оказывается доступно ex ante, а не ex post — в рамках пилотных проектов (см. выше). Во-вторых, смысл показателя среднего эффекта воздействия чрезвычайно прост и легко доступен пониманию практически каждого — политиков, СМИ, широкой публики. Нельзя не согласиться с высказыванием Дюфло, что по сравнению с любыми другими методами RCT «более прозрачные и простые для объяснения» (Duflo, 2017. Р. 17). Эта простота на фоне усложненности альтернативных подходов — одно из несомненных преимуществ RCT.

Проблема внутренней валидности

При оценивании качества RCT различают их внутреннюю и внешнюю валидность: внутренняя оценивает корректность выводов в эксперименте (были ли при их получении устранены все возможные смещения), а внешняя — корректность выводов из эксперимента (будут ли они воспроизводиться в иных условиях). В первом случае речь идет о статистической чистоте получения результатов, во втором — о допустимой широте их последующего использования.

Общепризнанно, что с точки зрения внутренней валидности рандомизированные контролируемые испытания превосходят любые другие методы. Высокая внутренняя валидность RCT связана с их способностью давать несмещенные оценки причинно-следственных связей. Отсюда их квалификация как «экспериментального идеала» (Angrist, Pischke, 2010). Дизайн RCT обеспечивает идентичность экспериментальной и контрольной групп по всем наблюдаемым и ненаблюдаемым характеристикам, кроме одной, в измерении которой мы заинтересованы, и позволяет на этой основе выявлять и оценивать связь между произведенным воздействием и его последствиями: «Невозможно спорить с тем, что тщательно спланированный эксперимент дает нам несмещенную оценку воздействия конкретной интервенции, которая нас интересует. Используя общепринятый жаргон, можно сказать, что экспериментальные результаты внутренне валидны» (Banerjee, 2005. Р. 4341). Именно это дает право называть RCT «золотым стандартом» эмпирического анализа (см. выше).

Однако с вердиктом об абсолютном превосходстве RCT над любыми другими методами с точки зрения их внутренней валидности согласны далеко не все. Критики считают его явно преувеличенным. По их мнению, это не более чем риторический прием, используемый рандомистами для продвижения своих идей, поскольку сама по себе рандомизация не дает гарантии безошибочной верификации каузальных эффектов (Deaton, 2010).

1. Рандомисты без колебаний приписывают любую разницу в средних результатах между экспериментальной и контрольной группами производимым интервенциям. По категорическому утверждению Банерджи и Дюфло, «поскольку до начала эксперимента индивиды, назначенные для различных видов “лечения”, были совершенно сопоставимы (потому что были отобраны случайным образом), любое возникающее между ними различие является результатом внешнего воздействия» (Банерджи, Дюфло, 2021. С. 39). Однако на практике достигать посредством рандомизации абсолютной сбалансированности между экспериментальной и контрольной группами не удается. Поэтому претензия RCT на то, что они гарантированно обеспечивают полное отсутствие систематических различий между экспериментальной и контрольной группами, лишена оснований. Красноречивой иллюстрацией может служить одно исследование, проведенное в Дании (Vass, 2010). Была сформирована случайная выборка из примерно 1000 пожилых индивидов, которые были затем случайным образом разбиты на две группы. При этом никакому реальному воздействию ни одна из них не подвергалась. Тем не менее через полтора года между ними обнаружилась заметная разница в показателях смертности, статистически значимая на очень высоком уровне доверительной вероятности (р = 0,003).

2. Рандомисты редко вспоминают, что RCT гарантируют точную верификацию каузальных эффектов и соответственно могут считаться внутренне валидными лишь в идеальных условиях. Только тогда оценки каузального эффекта, получаемые с помощью RCT, можно считать полностью свободными от смещений. Идеальная схема RCT основана на законе больших чисел, из которого следует, что при рандомизации индивидуальные характеристики будут равномерно распределяться между двумя группами, но такое распределение будет достигаться, во-первых, только в среднем, во-вторых, только при очень большом числе наблюдений (в пределе стремящемся к бесконечности) и, в-третьих, только при многократно повторяющихся разбивках выборки на разные по составу экспериментальные и контрольные группы (в пределе тоже стремящихся к бесконечности) (Deaton, Cartwright, 2018). Поэтому исследователям постоянно приходится делать оговорки о том, что метод рандомизации обеспечивает идентичность сравниваемых групп только «теоретически», только «в среднем», только «чисто статистически», только «для бесконечно больших выборок» (de Cler, 2021).

Естественно, реальная схема RCT никогда не совпадает с идеальной. На практике рандомистам чаще всего приходится работать с не очень большим или даже очень небольшим числом наблюдений. Ограниченность бюджета при высоких финансовых, временных и организационных издержках вынуждает их довольствоваться скромными по размеру выборками (Ravallion, 2020). Ситуация усугубляется тем, что когда пересечение между экспериментальной и контрольной группами (то есть присутствие в них индивидов с аналогичными наборами характеристик) невелико, эффективный размер выборки может оказаться в 10 или даже 100 раз меньше их номинального размера (loannidis, 2018), превращая полученные результаты из по видимости статистически значимых в реально статистически незначимые (Deaton, 2020)7.

По тем же причинам почти никогда не практикуется многократная рандомизация на основе одной и той же выборки с формированием в каждом раунде особых, отличающихся по составу экспериментальной и контрольной групп. Это серьезное отклонение от идеальной схемы: в RCT все различия между группами элиминируются при условии усреднения результатов по бесконечному числу (чисто гипотетических) повторений, так что среднее значение АТЕ для всего множества единичных рандомизаций может рассматриваться как «истинное». Хотя любое отдельное испытание не в состоянии обеспечить полный баланс факторов, способных порождать систематические различия между экспериментальной и контрольной группами, отклонения от него будут варьировать в пользу то первой, то второй. Поэтому в длинной серии воображаемых экспериментов эти отклонения будут взаимно погашаться (Deaton, Cartwright, 2018).

Однако при проведении «разовой» рандомизации, то есть на практике, такого взаимопогашения не происходит. Баланс между экспериментальной и контрольной группами всегда остается неполным, так что разность в средних результатах между ними оказывается равна сумме среднего эффекта воздействия и ошибки, порождаемой несбалансированностью прочих факторов. Совокупное влияние этих факторов может быть сильнее для экспериментальной или контрольной группы, но в любом случае об идентификации «истинной» причинно-следственной связи говорить не приходится: эффект, приписываемый воздействию, в действительности может быть следствием неполной сбалансированности сравниваемых групп по прочим факторам (Deaton, Cartwright, 2018).

Никакая «разовая» рандомизация не способна автоматически выравнивать все характеристики экспериментальной и контрольной групп. Она не может гарантировать, что все параметры будут сбалансированы хотя бы в среднем, даже если эти группы отбирались случайным образом. В исследовательской практике для борьбы с такими дефектами используются перевзвешивания, кластеризация, оценивание стандартных регрессионных моделей, которые наряду с контрольными дополнительно включают фиктивную переменную, отражающую принадлежность индивидов к экспериментальной или контрольной группе, и т. д. (de Cler, 2021). Очевидно, такие компромиссные решения лишают RCT декларируемого превосходства над другими методами, так что идея «золотого стандарта» повисает в воздухе.

3. Как и многие другие методы, RCT не застрахованы от проблемы аутлайерства, то есть появления выбросов в экспериментальной или контрольной группе (Deaton, 2020). Допустим, проводится экспериментальная проверка эффективности каких-то программ — по микрокредитованию или улучшению качества школьного образования. Достаточно, чтобы в экспериментальную группу попало несколько аутлайеров — сверхталантливых предпринимателей или сверходаренных детей, чтобы прийти к ложному выводу о том, что интервенции успешны и приводят к желаемым результатам. И наоборот, достаточно, чтобы несколько таких аутлайеров попали в контрольную группу, и будет сделан ошибочный вывод о неэффективности этих интервенций.

4. Довольно искусственно выглядит излюбленная рандомистами аналогия с клиническими испытаниями в медицине. Как отмечает Дитон, их постоянные отсылки к опыту доказательной медицины носят по большей части риторический характер (Deaton, 2010).

В отличие от медицины, рандомизированные эксперименты в экономике не являются двойными слепыми (Ravallion, 2020). При тестировании новых лекарств испытуемые не знают, получили они действующее вещество или плацебо, точно так же эксперты не знают, кто из испытуемых попал в группу воздействия, а кто — в группу сравнения. В экспериментах, проводимых экономистами, эти условия не соблюдаются: любой их участник знает, подвергся он воздействию или нет (получил или не получил противомоскитную сетку, был или не был ему выдан микрокредит, прошел или не прошел он курс санитарного просвещения и т. д.), а исследователям точно так же известно, кто из участников к какой группе принадлежит. Отсюда высокий риск возникновения эффекта самоотбора: пользуясь доступной им информацией, участники эксперимента могут переходить из одной группы в другую, если надеются, что их положение от этого улучшится. Сходным образом исследователи, заинтересованные в успехе эксперимента, могут по-разному взаимодействовать с участниками из разных групп, сознательно или бессознательно подталкивая их к желательным для себя результатам (Deaton, Cartwright, 2018).

Допустим, проводится эксперимент, чтобы выяснить, как на успеваемость школьников влияет размер класса. В одной половине отобранных школ мы делим все классы пополам, уменьшая их численность вдвое, а в другой оставляем все, как было. Естественно ожидать, что, реагируя на это вмешательство, родители из наиболее образованных и состоятельных семей начнут делать все возможное и невозможное (вплоть до смены места жительства), чтобы перевести своих детей в школы с уменьшенными классами. Из-за этого между экспериментальной и контрольной группами возникнут систематические различия и полученные оценки окажутся смещенными. Эффект, который мы будем склонны приписывать различиям в размерах классов, на самом деле будет объясняться различиями в социально-экономическом положении семей школьников.

Достаточно странно, но о том, что, в отличие от экспериментов в медицине, эксперименты в экономике не слепые, в литературе по RCT почти никогда не упоминается.

5. Рандомисты далеко не во всех случаях прибегают к процедуре истинной рандомизации. Нередко разбивка на экспериментальную и контрольную группы проводится не по индивидам, а по целым кластерам — деревням, школам, больницам и т. д. Однако разбивка на две случайные группы кластеров не гарантирует разбивку на две случайные группы индивидов (Ravallion, 2020). Понятно также, что при использовании подобной процедуры у участников появляется возможность переходить из кластера в кластер — из экспериментальной группы в контрольную и наоборот, если это отвечает их интересам (например, менять школы для своих детей, как показано выше).

Более того, многие известные исследования с использованием RCT ограничиваются квазирандомизацией, когда, скажем, участники делятся на группы воздействия и сравнения в алфавитном порядке — по первым буквам их фамилий (Deaton, 2010). Наблюдаются и случаи открытого пренебрежения принципом случайного отбора, когда участниками эксперимента становятся только индивиды, изъявившие желание присоединиться к нему или находящиеся в зоне доступности для экспериментаторов (Deaton, Cartwright, 2018). Очевидно, что такие практики создают угрозу для точной верификации каузальных эффектов и поэтому далеки от провозглашаемых рандомистами высших стандартов строгости и научности.

6. Даже в идеальных условиях RCT подходят для оценки только одного показателя — среднего эффекта воздействия и сами по себе ничего не говорят о других характеристиках распределения, которые могут представлять интерес для политиков или спонсоров программ помощи. Но любое вмешательство чаще всего порождает как выигрывающих, так и проигрывающих в зависимости от характеристик индивидов и социальных групп, к которым они принадлежат. Политикам важно знать, какая доля населения получит от данной интервенции выгоды, а какая понесет потери, какие социально-демографические группы окажутся в выигрыше, а какие — в проигрыше и т. д. Иными словами, им необходимо иметь представление об общей кривой распределения исходов тестируемой интервенции. Но не исключена ситуация, когда она продемонстрирует положительный средний эффект воздействия, хотя практически все население будет от нее проигрывать и лишь несколько человек станут получать очень крупный выигрыш. RCT не позволяют выявлять такие ситуации (Deaton, 2010). Лекарство, которое помогает выжить в 60% случаев, но в 40% приводит к смерти пациентов, едва ли будет рекомендовано к применению. Вместе с тем социальный проект с аналогичным распределением выигравших и проигравших может быть признан успешным исходя из результатов RCT, и его могут начать внедрять повсеместно.

Хотя в принципе RCT могут давать несмещенные оценки среднего эффекта воздействия, другие характеристики распределения — например, медианный эффект или эффекты по квантилям — не идентифицируются из них напрямую. Для оценки таких показателей приходится использовать отличные от RCT методы, требующие большего числа дополнительных специальных предположений (Deaton, 2020). С этой точки зрения никаких преимуществ перед другими методами у рандомизированных экспериментов нет.

В качестве примера того, что внутренняя валидность даже эталонных исследований с использованием RCT нередко оставляет желать лучшего, можно сослаться на знаменитую работу Э. Мигеля и М. Кремера, посвященную оценке эффективности программ по дегельминтизации школьников (Miguel, Kremer, 2004). Опубликованная в престижнейшем журнале «Econometrica», она была признана абсолютной классикой новой экономики развития (ее упоминают в решении о присуждении Кремеру Нобелевской премии по экономике).

Известно, что в развивающихся странах миллионы детей страдают от заражения гельминтами. Мигель и Кремер предположили, что из-за этого многие из них вынуждены пропускать уроки в школе, что должно негативно отражаться на их успехах в учебе и будущих перспективах на рынке труда. Для проверки этого предположения в конце 1990-х годов они провели эксперимент в Кении, в котором приняли учащиеся 75 местных школ. Детям из экспериментальной группы на протяжении двух лет давали в школах препарат от глистов, которого не получали дети из контрольной группы. Эксперимент показал, что дегельминтизация улучшает здоровье учащихся и снижает частоту пропусков ими школьных занятий (на 7,5%), но при этом не отражается на их академических результатах. Хотя авторы обнаружили значимый прямой эффект от программы, еще более сильным оказался ее внешний эффект, связанный с тем, что избавление от гельминтов детей из экспериментальной группы снижало риск заражения при общении с ними у детей из контрольной группы. Отсюда Мигель и Кремер сделали вывод, что дегельминтизация — самый эффективный способ повысить посещаемость школы в развивающихся странах.

Однако когда группа авторитетных эпидемиологов провела повторный анализ микроданных Мигеля и Кремера, попытавшись реплицировать их результаты, было выявлено множество неточностей и нестыковок (Aiken et al., 2015; Davey et al., 2015). После устранения обнаруженных ошибок оценка общего влияния дегельминтизации на частоту пропусков школы снизилась вдвое по сравнению с заявленной изначально. Хотя прямой эффект (для вылеченных детей) остался значимым, косвенный (для детей, не получавших лечения) исчез. Некоторое влияние дегельминтизации на посещаемость школы по-прежнему прослеживалось, но представало как очень слабое и, скорее всего, смещенное. Более того, его не удавалось однозначно приписать программе дегельминтизации, потому что в рамках проекта параллельно осуществлялась еще одна программа — по санитарному просвещению детей (как важно мыть руки и т. д.), которая и могла стать главным фактором, ответственным за произошедшие изменения. Общий вывод, к которому пришли критики, был негативным: убедительных свидетельств в пользу предположения о положительном влиянии дегельминтизации на посещаемость школы нет, а анализ Мигеля и Кремера не соответствует научным стандартам, принятым для RCT в сфере здравоохранения. Впрочем, этот критический разбор не поколебал звездного статуса их работы: в восприятии экономистов она осталась классикой RCT.

Проблема внешней валидности

Внешняя валидность отвечает на вопрос о степени универсальности результатов RCT, возможности их переноса в иной, более широкий контекст. Успешный рандомизированный эксперимент говорит лишь о том, что для данной группы населения данного региона данной страны программа, подвергнутая экспериментальной проверке, оказалась эффективной. Но он ничего не говорит о том, есть ли смысл распространять эту программу на другие группы населения других регионов других стран: приведет ли она там к тем же результатам, если попытаться ее внедрить?

Это проблема внешней валидности: окажется ли интервенция, хорошо зарекомендовавшая себя в экспериментальной среде, столь же эффективной в какой-то иной, не экспериментальной среде? Где еще, помимо самого проведенного испытания, будут выполняться его результаты: повсеместно, или в большинстве случаев, или только в небольшом числе случаев при соблюдении особых условий, или вообще нигде? Очевидно, что для политиков и спонсоров международной помощи результаты RCT будут представлять практический интерес, только если они обладают высокой внешней валидностью и не зависят жестко от специфического контекста, в котором были получены8.

У внешней валидности можно выделить два измерения — горизонтальное и вертикальное. В первом случае речь идет о переносе программы, апробированной в ходе эксперимента в какой-то специфической местности или каком-то специфическом регионе, в какую-то другую местность или какой-то другой регион — вправе ли мы ожидать, что получим там сходные результаты? Разные контексты (местности, регионы, страны) всегда отличаются друг от друга, так что результаты, полученные в одних условиях, могут не воспроизводиться в других. Иногда достаточно лишь немного изменить дизайн программы или перенести ее на какую-то иную группу населения, чтобы она перестала работать.

Так, в индийском штате Раджастан было проведено успешное RCT, в рамках которого проверялось, какое влияние на абсентеизм учителей начальных школ могла оказать установка камер наблюдения, фиксирующих время их прихода и ухода (Duflo et al., 2012). Были получены положительные результаты: абсентеизм учителей резко снизился. Но когда в клиниках того же индийского штата был проведен аналогичный эксперимент для медицинских сестер, результаты оказались совершенно иными (Banerjee et al., 2008). Наблюдалось лишь кратковременное снижение прогулов, которое затем быстро сошло на нет: медсестры нашли пути обхода системы контроля, недоступные школьным учителям.

Во втором случае речь идет о масштабировании проекта: вправе ли мы ожидать, что при переносе программы с местного или регионального уровня на национальный получим сходные результаты? Когда масштаб программы меняется, существует риск возникновения дополнительных («общеравновесных») эффектов, которые могут сводить полученные в ходе эксперимента результаты на нет (Bedecarrats et al., 2020). Масштабирование высвобождает причинные силы, отсутствовавшие в эксперименте. Как следствие, эффекты, наблюдаемые для небольших выборок, часто исчезают при переходе к более крупным агрегатам.

Допустим, мы провели в каком-то регионе рандомизированный эксперимент, проверяя, как повлияет на уровень образования детей из бедных домохозяйств предоставление их родителям обусловленных денежных трансфертов, выплата которых зависит от того, отправляют они своих детей в школу или нет. Допустим далее, что, как показал эксперимент, эта программа увеличила продолжительность пребывания детей в школе на два года, способствуя повышению их заработков после выхода на рынок труда и вытягивая их таким образом из бедности. Однако если попытаться распространить эту программу на всю страну, то предложение работников с более высоким образованием резко возрастет, что неизбежно снизит уровень их оплаты, и они, возможно, не смогут выбраться из состояния бедности. Одна и та же интервенция, внедренная локально или глобально, будет иметь разные последствия.

Принято считать, что внутренняя валидность — самая сильная сторона рандомизированных контролируемых испытаний, а внешняя — самая слабая. В подавляющем большинстве работ с использованием RCT о проблеме внешней валидности даже не упоминается. В редких случаях, когда о ней все же вспоминают, это выглядит скорее как формальность. Так, Банерджи предложил удивительный по простоте выход: считать результаты любого рандомизированного эксперимента по умолчанию общезначимыми и независимыми от контекста, если только нет свидетельств, говорящих об обратном (Banerjee, 2005). Очевидно, что такая механическая экстраполяция очень далека от стандартов строгости и научности, приверженность которым декларируют рандомисты9.

Другой вариант ненамного конструктивнее: многократно повторять один и тот же эксперимент в разных контекстах, пока мы либо не убедимся, что эффект воздействия достаточно стабилен, либо обнаружим, что это не так (Banerjee, 2005). Если выяснится, что повторные испытания, несмотря на различия в условиях, приводят к более или менее идентичным результатам, то это будет свидетельствовать об их внешней валидности. Такие метаоценки позволяют преодолевать проблему внешней валидности и разрабатывать на их основе «доказательные» рекомендации для политиков: «Единственный эксперимент не дает окончательного ответа на вопрос, будет ли программа универсально „работать". Но мы можем провести серию экспериментов, отличающихся либо местом проведения, либо проверяемым видом вмешательства (или и тем и другим). Подобная серия экспериментов позволит нам проверить надежность наших выводов» (Банерджи, Дюфло, 2021. С. 39).

Но и это лишь видимость решения: из того, что какая-то интервенция оказалась успешной в двух разных странах, не следует, что она будет успешной и в третьей. Накопление кейсов само по себе ничего не гарантирует. Сторонники RCT утверждают: чтобы удостовериться, что что-то действительно «работает», следует много раз повторять один и тот же эксперимент в разных условиях. Но сколько таких повторений необходимо, чтобы окончательно убедиться, что это что-то «работает»? Ответа на этот вопрос у них нет. Если в десяти случаях в десяти разных местах интервенция Л оказалась лучше интервенции В, это еще не значит, что она окажется лучше и в одиннадцатом. Здесь возникает классическая проблема индукции, которая, как хорошо известно из философии науки, не имеет удовлетворительного решения10.

К этим концептуальным соображениям добавляются чисто практические. Для исследователей стимулы заниматься репликациями экспериментов, уже проведенных кем-то другим, гораздо слабее стимулов проводить новые. Только оригинальный эксперимент способен обеспечить публикацию в топовом научном журнале и ее последующее активное цитирование. Идея подвергать все RCT многократным репликациям выглядит утопически, поскольку они ценятся научным сообществом не слишком высоко и мало помогают академической карьере. Когда репликации все же проводят, они практически никогда не бывают точными, отличаясь от исходного исследования множеством деталей формирования выборки, дизайна эксперимента, техники оценивания и т. д. Еще большие затруднения возникают при попытках масштабирования. Показательно, что из всего массива завершенных рандомизированных экспериментов, информация о которых содержится на вебсайте Лаборатории J-PAL, масштабированию подвергались только 2% (Bedecarrats et al., 2019).

Метаанализ рандомизированных оценок среднего эффекта воздействия, проведенный Э. Вивальт, свидетельствует об их существенном разбросе в зависимости, во-первых, от размера выборок и, во-вторых, от идентичности экспериментаторов (Vivalt, 2020). Оценки, полученные на малых выборках, оказываются намного выше, чем на больших, а полученные академическими исследователями и НПО — намного выше, чем государственными агентствами. Денежные и политические стимулы государственных служащих из развивающихся стран мало напоминают стимулы дипломированных экспертов из развитых (Deaton, 2020).

В качестве примера можно сослаться на школьный эксперимент, проведенный в Кении одной неправительственной организацией. Случайно отобранным школам были предоставлены средства для найма по краткосрочному контракту дополнительного учителя (Duflo et al., 2015). Дети, занимавшиеся с такими учителями, продемонстрировали на тестовых испытаниях значительно лучшие результаты, чем занимавшиеся без них. Однако когда другая группа исследователей (Bold et al., 2013), используя ту же схему, попыталась воспроизвести результаты этого эксперимента, только с дополнительными учителями, нанятыми правительством, эффект исчез. Стало ясно, что успеваемость школьников повышалась не по причине найма большего числа учителей, а из-за того, что организацией и мониторингом всего процесса занимались высокомотивированные представители неправительственной организации (Ravallion, 2020).

Неспособность новой экономики развития обеспечить внешнюю валидность RCT прямо связана с ее общей атеоретической ориентацией — с тем, что ее интересует только вопрос «что» и не интересует вопрос «почему». Дизайн RCT строится по принципу «черного ящика»: известно, что находится на входе и что получается на выходе, но то, что происходит внутри, неизвестно. Метод рандомизации способен (в идеальных условиях) идентифицировать каузальный эффект, вызванный определенной интервенцией, но он ничего не может сказать о том, какие конкретные причинно-следственные механизмы за этим стоят (Bedecarrats et al., 2020; Deaton, 2010). Чтобы ответить на вопрос, почему работает та или иная программа, нужна теория: надо понимать характер связи между оказанным воздействием и полученным эффектом.

Отсутствие у рандомистов интереса к раскрытию внутреннего устройства причинно-следственных механизмов парадоксально для подхода, который видит своей главной задачей установление причин явлений (Bedecarrats et al., 2020). По мнению М. Равайона, в утверждениях рандомистов о том, что RCT абсолютно надежны, их результаты не зависят от контекста и поэтому в качестве «золотого стандарта» они занимают вершину иерархии исследовательских методов, больше веры, чем науки (Ravallion, 2020).

Чтобы быть уверенными в том, что программа сработает в других контекстах, необходимо знать, почему она сработала в данном контексте, то есть иметь представление о механизме, посредством которого воздействие Т вызвало эффект Е. Именно наличие теории, раскрывающей характер причинно-следственной связи, способно обеспечить внешнюю валидность, позволяя ожидать, что результаты, полученные в одном контексте, с высокой вероятностью будут воспроизводиться в других: «Для того чтобы рандомизированное исследование давало „полезное знание" за пределами локального контекста, оно должно отражать некую общую тенденцию, некий общий эффект, являющийся продуктом действия какого-то механизма, который, насколько можно судить, имеет более широкую сферу приложения» (Deaton, 2010. Р. 448).

Иными словами, чтобы понять, почему и при каких условиях работает та или иная программа, необходима теория. Заявления рандомистов о внешней валидности эффектов, обнаруживаемых с помощью RCT, лишены научного основания и, по существу, выдают желаемое за действительное. Как выразился по этому поводу Д. Родрик, «обещание рандомистов превратить RCT в машину познания без теории является несбыточным» (цит. по: Deaton, Cartwright, 2018. Р. 7). Тот факт, что для новой экономики развития вопросы внутренней валидности обладают абсолютным приоритетом над вопросами внешней, имеет негативные практические последствия: отсутствие у RCT внешней валидности неизбежно обесценивает политические рекомендации, вырабатываемые на их основе.

Во многом это связано с тем, что сторонники экономики RCT исходят из узкого понимания каузальности, пытаясь идентифицировать причины напрямую из эмпирических данных без привлечения теоретических идей или дополнительных предположений. Современная философия науки считает такой подход несостоятельным: «Каузальные выводы не следуют дедуктивно из данных без строго определенного набора вспомогательных допущений, причем эти допущения сами по себе также не являются дедуктивными следствиями из данных». Поэтому, строго говоря, любую оценку, полученную в каком-то исследовании, даже если это RCT, некорректно называть «каузальной»: «Только целая совокупность свидетельств приводит к вердикту о каузальности... Каузальность — это научный вывод, теоретическое утверждение, и как таковое оно выходит за границы любого отдельно взятого исследования» (Broadbent et al., 2017. Р. 1844). В этом критическом пункте позиции «старой» и «новой» экономики развития радикально расходятся. Как полагают критики, мечта рандомистов получить чисто эмпирические доказательства без всякой теории представляет собой утопию (Easterly, 2009): секреты экономического развития невозможно раскрыть, если не руководствоваться общей теорией, открытой для пересмотра и обновления (Deaton, 2010)11.

Политико-экономические аспекты

Отправным пунктом для рандомистской политической программы стала скептическая оценка результатов, достигнутых «старой» экономикой развития, которая видела свою главную задачу в выведении развивающихся стран на орбиту устойчивого экономического роста. «Неприятная правда заключается в том, что нет никакой формулы роста, — отмечают Банерджи и Дюфло в статье, написанной как своеобразный политический манифест движения. — Ученые не понимают, почему одни экономики растут, а другие топчутся на месте. Не существует общепринятого рецепта, как можно подтолкнуть бедные страны к достижению стабильно высоких темпов экономического роста, как и общих принципов роста и двух полностью одинаковых его примеров» (Banerjee, Duflo, 2020. Р. 23).

Но это не значит, что развивающимся странам нельзя помочь: несмотря на то что проблема экономического роста остается загадкой, бремя невзгод, падающее на жителей бедных стран, можно значительно облегчить. Для этого, по мнению сторонников новой экономики развития, есть все необходимое. Во-первых, в отличие от проблемы роста, эксперты знают, как добиваться прогресса по различным конкретным аспектам жизни людей в развивающихся странах (бедность, образование, санитария и т. д.). Во-вторых, интервенции по таким локальным проблемам имеют измеримые цели и их эффективность можно оценить количественно. В-третьих, сегодня эксперты располагают надежным научным инструментарием для получения подобных оценок — техникой рандомизированных контролируемых испытаний, благодаря которым они могут экспериментировать, отказываясь от программ, которые не работают, и продвигая программы, которые работают (Banerjee, Duflo, 2020).

Экономисты старой школы полагали, что основной упор следует делать на выработке правильной макроэкономической политики и создании «хорошей» институциональной среды, не утруждая себя поиском микродоказательств (Banerjee, 2009). Экономисты новой школы исходят из противоположной установки: главное — это микродоказательства, поскольку без них невозможно знать, принесут самоочевидные, на первый взгляд, рекомендации пользу или вред. Безусловное преимущество RCT в том, что мы можем начинать с конкретного политического вопроса, а затем искать доказательства (Banerjee, 2009).

Как подчеркивают рандомисты, наиболее крупные успехи последних десятилетий были связаны не с ускорением роста, а с улучшением конкретных сторон жизни стран, которые были и остаются очень бедными: «Никто не знает, когда в той или иной стране заработает локомотив роста; но когда это произойдет, бедняки с большей вероятностью смогут запрыгнуть в этот поезд, если они будут иметь приличное здоровье, уметь читать и писать и заботиться не только о своих неотложных нуждах. Не нужно напрасно пытаться ускорить рост: следует сосредоточиться на том, к чему он должен приводить, — к улучшению благосостояния бедного населения. Устранение таких проблем, может быть, и не подтолкнет страны к устойчивому ускорению роста, но оно сможет значительно повысить благосостояние их граждан. В отсутствие волшебного зелья для запуска процесса развития лучший способ коренным образом изменить миллионы жизней не в том, чтобы безуспешно пытаться ускорить рост. Важно сосредоточиться непосредственно на том, что рост должен улучшать: на благосостоянии бедных» (Banerjee, Duflo, 2020. Р. 28).

Рандомисты уверены, что реальный прогресс в развивающихся странах возможен только с помощью получаемых ими «строгих» доказательств. В перспективе должен быть создан специальный орган, который мог бы составить исчерпывающий список «хороших» и «плохих» политик развития и затем действовать как координационный центр, предоставляя всем заинтересованным сторонам ответы на вопросы «что работает», а «что не работает» на практике (Labrousse, 2020). Такой подход можно назвать технократическим, поскольку он стремится к деполитизации процесса развития — выведению его из сферы политических и идеологических разногласий. Как неявно предполагают рандомисты, главный источник подобных разногласий — отсутствие строгих научных доказательств. Когда они будут предъявлены, политические страсти улягутся сами собой. Иными словами, RCT отводится роль беспристрастного арбитра при выработке и оценке государственной политики. Де-факто это отдает деятельность государства в руки экспертов, рекомендациям которых должны строго следовать политики и чиновники: «Нам требуется превратить государственную политику из искусства в науку» (Leigh, 2018. Р. 206).

Критикуя рандомистскую программу, Притчетт выдвигает несколько контраргументов (Pritchett, 2014). Во-первых, многим странам удалось достичь высокого уровня жизни и искоренить крайнюю бедность, когда о рандомизированных экспериментах еще ничего не знали. Во-вторых, две страны, которые в последние десятилетия внесли наибольший вклад в сокращение глобальной бедности, — Китай и Индия, добились этого за счет масштабных экономических реформ, а не точечных интервенций в области здравоохранения или образования12. И если им удалось радикально снизить бедность без помощи RCT, то на чем основаны утверждения, что их использование — самый эффективный способ борьбы с ней? Имеются ли свидетельства того, что страны, активно прибегавшие к RCT, сокращали бедность быстрее, чем те, которые этого не делали? По-видимому, нет: «Никогда не существовало никакой теории и никаких свидетельств о том, что ключевым или хотя бы важным ограничением для политики развития является отсутствие строгих доказательств причинно-следственных связей или что получение таких доказательств изменило бы практику. Нам предлагают принимать это просто на веру» (Pritchett, 2014). В-третьих, рандомисты почему-то игнорируют первую волну увлечения RCT в США, которая пришлась на 1970 —1980-е годы, когда для оценки эффективности социальных программ, связанных с инициированной президентом Л. Джонсоном программой войны с бедностью, начали активно использовать рандомизированные эксперименты. Нынешняя волна, охватившая экономику развития, таким образом, вторая. Однако рандомисты ничего не пишут о первой волне RCT и причинах разочарования в них.

Притчетт выделяет две конкурирующие стратегии в современной экономике развития — стратегию «национального развития», которая имеет своим объектом все общество и нацелена на решение глубинных экономических и социальных задач, и стратегию «урезанного развития» (kinked), которая имеет своим объектом отдельные социальные группы и нацелена на решение ограниченных, не требующих фундаментальных изменений задач (Pritchett, 2020). Стратегия «урезанного», или «кинки-развития» была выдвинута рандомистами в качестве альтернативы более традиционной стратегии «национального развития». Согласно этой точке зрения, процесс развития состоит в достижении минимально приемлемых показателей в определенных сферах жизни общества («искоренение крайней бедности», «всеобщее начальное образование», «обеспечение доступа к чистой воде» и т. д.). Такие цели можно назвать «урезанными» в том смысле, что они устанавливают произвольную планку по определенному аспекту благосостояния людей, а затем направляют весь процесс развития на ее достижение (Кеппу, Pritchett, 2013).

Так, внимание рандомистов обращено почти исключительно на беднейших из бедных — живущих в крайней нищете (меньше чем на 1,9 долл, по ППС в день), полностью неграмотных, лишенных доступа к чистой питьевой воде и т. д. Свои эксперименты они проводят только на них и адресуют свои рецепты практически только им. В рамках такой «кинки-стратегии» повышению благосостояния людей, находящихся выше этого порога, де-факто придается нулевая ценность. Вопрос о том, как можно повысить уровень жизни всего населения развивающихся стран, сторонников экономики RCT, строго говоря, не интересует. Они озабочены не тем, чтобы сдвинуть вверх всю кривую распределения доходов в этих странах, а лишь тем, чтобы приподнять ее левый хвост, где концентрируются самые бедные (Pritchett, Sandefur, 2013). Но даже здесь «кинки-стратегия» довольствуется малым: хотя меры, рекомендуемые рандомистами, могут улучшить положение наиболее уязвимых групп населения развивающихся стран, в большинстве случаев они все равно оставляют эти группы ниже черты бедности (Ogden, 2020). Для сокращения бедности, убеждены критики, важен экономический рост, а не «строгая» оценка локальных проектов.

RCT подходят лишь для узкого круга потенциальных интервенций и неприложимы к решению важнейших проблем развития, таких как роль институтов, разработка правильной макроэкономической политики, улучшение корпоративного управления, рационализация системы налогообложения, участие в международной торговле (Bedecarrats et al., 2019). Ключевые проблемы, связанные, в терминах Притчетта, с целями «национального развития», остаются вне зоны досягаемости RCT.

Рандомизации лучше всего поддаются сравнительно простые микропроекты с четким разделением на группы участников и не-участников, с коротким временным горизонтом, однонаправленными линейными причинно-следственными связями (Л вызывает В) и отсутствием внешних эффектов, затрагивающих третьих лиц. Такие узкоцелевые программы получили в исследовательской литературе название «программы туннельного типа» (Bernard et al., 2012). Если мы хотим, чтобы люди спали под противомалярийными сетками, лучше их раздавать бесплатно или продавать по символической цене? Могут ли условные денежные трансферты подтолкнуть матерей из бедных семей к тому, чтобы они начали посылать своих детей в школу? Усилят ли гендерные квоты при выборах в местные органы власти политическое влияние женщин? Как отмечает Родрик, «неопровержимые доказательства, которые генерируют многие рандомизированные эксперименты, относятся, как правило, к вопросам, которые настолько узко ограничены по охвату и значению, что сами по себе могут представляться неинтересными» (Rodrik, 2009. Р. 25).

Отсюда практически нулевая полезность RCT для лиц, ответственных за принятие решений. Когда индийского экономиста А. Субраманиана, в течение трех лет занимавшего пост главного экономического советника правительства Индии, спросили, как дорогостоящие рандомизированные эксперименты повлияли на государственную политику страны, он не смог вспомнить ни одного случая, когда RCT хоть чем-то помогли в решении неотложных вопросов, с которыми ему приходилось сталкиваться (Ravallion, 2020).

В то же время рандомизация неприменима для оценки комплексных долговременных проектов в нестабильной среде (Picciotto, 2020). Она крайне затруднена в случае средних и крупных инфраструктурных проектов, а при проведении масштабных реформ на уровне секторов или всей экономики она, по-видимому, вообще невозможна. По некоторым оценкам, RCT поддаются менее 5% всех потенциальных мер политики в этой области (Bedecarrats et al., 2019). В результате сфера применения «строго доказательного подхода» к проблемам развития оказывается «исчезающе мала» (Pritchett, Sandefur, 2013).

С этим же связана отраслевая асимметрия в использовании RCT. По данным Всемирного банка, при оценке эффективности его программ в области образования метод рандомизированных контролируемых испытаний использовался в 58% случаев, программ в области здравоохранения, питания и контроля рождаемости — в 83, программ в области ИКТ — в 67, программ в области санитарии и водоснабжения — в 72% случаев. В то же время в программах, относившихся к сельскому хозяйству, экономической политике, энергетике, охране окружающей среды, поддержке бизнеса, транспорту и развитию городов, он использовался менее чем в % случаев (Ravallion, 2020).

В сферах, где RCT невозможны, единственным доступным инструментом анализа и оценки оказываются обсервационные исследования, но рандомисты считают, что они не соответствуют «золотому стандарту» строгости и научности. В результате множество потенциально эффективных интервенций остаются вне поля зрения государственных структур развивающихся стран и спонсоров международной помощи. Пропаганда RCT как наилучшего или даже единственно научного метода при оценке программ помощи ведет к серьезным деформациям в борьбе с глобальной бедностью. В частности, она чревата отказом международного сообщества от помощи развивающимся странам в разработке крупномасштабных национальных и региональных программ (Bedecarrats et al., 2020).

Ни один из типичных объектов RCT, будь то обусловленные денежные трансферты, микрофинансирование, снабжение домохозяйств более качественными кухонными плитами, дегельминтизация и т. д., нельзя отнести к числу ключевых драйверов экономического роста (Pritchett, 2020). В то же время последний неизбежно сопровождается ускоренным прогрессом во всех сферах, привлекающих внимание рандомистов: здравоохранении, образовании, обеспечении доступа к воде, улучшении качества жилья и т. д. По оценке Притчетта, эффекты узкоцелевых программ не идут ни в какое сравнение с эффектами инклюзивного роста. Практически по любому аспекту благосостояния возможный выигрыш от прогресса в масштабе всей страны или целых секторов на порядок превосходит возможный выигрыш от узкоцелевых программ (Кеппу, Pritchett, 2013).

Технократический подход сторонников RCT также вызывает серьезные возражения. Дитон видит в такой установке «первородный грех экономики развития»: «Согласно этой доктрине... глобальная бедность отступит при применении правильных технических средств, одно из которых — принятие RCT в качестве фундамента при разработке доказательной (evidence-based) политики. Игнорирование политической сферы рассматривается как добродетель, а не как порок... Технократы считают, что могут способствовать развитию других стран извне, потому что знают, как находить то, что работает. По меньшей мере, в данном отношении они не видят особой разницы в проектировании какого-нибудь гаджета и социальной политики. И то и другое — упражнения для инженеров. Но последовательно сокращать бедность без вовлечения в политику нельзя» (Deaton, 2020. Р. 43).

По большому счету, рандомистский подход отражает запросы международных неправительственных организаций и частных благотворительных фондов, которые ориентированы на оказание помощи самым бедным и стремятся отбирать наиболее эффективные формы гуманитарного вмешательства (Pritchett, Sandefur, 2013). Но интересы НПО не обязательно совпадают с интересами правительств, не говоря уже об интересах рядовых граждан развивающихся стран: «Благотворительные фонды и альтруисты часто „знают“, что хорошо для бедных людей, и имеют самые лучшие намерения, но предоставляют мало доказательств того, что бедные люди согласны с их оценками или одобряют предлагаемые ими рецепты, так что их интересы могут легко приходить в противоречие с интересами тех, кому они пытаются помогать» (Deaton, 2020. Р. 43).

Сторонники новой экономики развития утверждают, что RCT способны произвести революцию в социальной политике, сделав ее значительно более эффективной. Но, как иронически замечает У. Истерли, само это утверждение находится в противоречии с их же собственными стандартами строгости и научности, поскольку не поддается проверке с помощью RCT (Easterly, 2009).

Заключение

Какие выводы можно сделать из многолетнего интеллектуального противостояния рандомистов и их критиков? С концептуальной точки зрения более убедительной выглядит аргументация последних. Трудно не согласиться с их утверждениями о том, что навязывание идеи иерархии методов опасно и ненаучно, потому что она освобождает исследователей от согласования результатов, получаемых разными методами; что никакого методологического «золотого стандарта» не существует; что рандомизацию в реальных полевых условиях нельзя смешивать с рандомизацией в гипотетических идеальных условиях; что на практике формирование экспериментальной и контрольной групп далеко не всегда строится по принципу случайного отбора; что внутренняя валидность RCT не безупречна и получаемые на их основе оценки нельзя считать полностью свободными от смещений; что никакое отдельное рандомизированное испытание не может претендовать на точную идентификацию каузального эффекта; что RCT практически бессильны перед проблемой внешней валидности; что атеоретическая установка сторонников RCT представляет собой концептуальный тупик; что рандомизированные исследования ничего не могут сказать о внутренних механизмах, стоящих за результатами экспериментов; что напрямую из рандомизированных контролируемых испытаний идентифицируется только один показатель — средний эффект воздействия, тогда как все остальные, не менее важные, остаются за кадром.

Некоторые из ограничений, с которыми сталкиваются RCT, специфические для них, но многие оказываются общими с другими эконометрическими методами. RCT нельзя приписывать какой-то привилегированный статус, поскольку они подвержены тем же проблемам, с которыми традиционно пыталась бороться эконометрика, и нет ничего такого, что было бы под силу только им (Deaton, 2020). В определенных условиях при решении определенных проблем обсервационные исследования могут давать более надежные результаты, так что широко разрекламированное превосходство RCT над всеми другими методами «вопрос скорее веры, чем науки» (Ravallion, 2020). Претензии рандо-мистов на создание «доказательной экономики» по аналогии с «доказательной медициной» выдают желаемое за действительное13.

Из-за крайне низкой внешней валидности политические рекомендации, вырабатываемые на основе RCT, имеют ограниченную практическую ценность и всегда сопряжены с риском, что интервенция, сработавшая в специфических условиях, не сработает при попытке ее более широкого внедрения. Плата за формальный успех RCT — зауженный фокус: они применимы только к небольшим «туннельным» проектам и не могут помочь при проведении крупных социальных реформ. С быстрым ростом популярности RCT связано постепенное вытеснение философии «больших дел» философией «малых дел» в рамках экономики развития: экономисты начали отказываться от изучения фундаментальных проблем, жизненно важных для развивающихся стран, переключаясь на изучение «миниатюрных» проблем, интересных прежде всего им самим. Результатом такой переориентации стала деформация усилий международного сообщества по оказанию экспертной, политической и финансовой поддержки развивающимся странам, отказ от помощи им при проведении крупномасштабных социальных и экономических реформ.

Вместе с тем нет сомнений, что формирование новой экономики развития стало одним из наиболее ярких событий в эволюции экономической мысли начала XXI в. Она выступила важнейшим каналом, по которому в экономическую науку начали проникать экспериментальные методы, аналогичные методам естественно-научных дисциплин.

Экономика RCT подняла новый пласт проблем, остававшихся раньше вне поля зрения исследователей, и предложила новый подход к их решению, опирающийся на экспериментальные данные. Во многом благодаря ей изменились ландшафт современной экономической науки и даже само мышление современных экономистов. Она выдвинула на первый план вопросы оценки эффективности программ помощи развивающимся странам, а также подотчетности при их реализации. Результатом стало критическое переосмысление опыта, связанного с попытками сократить масштабы глобальной бедности. Экономика RCT дала мощный импульс сбору новых качественных данных самими исследователями, что резко расширило пространство эмпирического изучения проблем развития. Она сделала исследовательский процесс более структурированным, потребовав придерживаться строгого протокола при проведении экспериментов, и более транспарентным, потребовав выкладывать в открытый доступ исходные данные и рабочие файлы. Это способствовало утверждению более высоких академических стандартов, которым должны удовлетворять эмпирические исследования.

Однако критики не отрицают высокого аналитического потенциала метода рандомизации. RCT часто бывают полезны, но, как и другие методы, имеют свои недостатки и подводные камни (Deaton, 2020). С чем не согласны критики, так это с утверждениями о том, что RCT находятся на вершине иерархии методов и что рандомизация автоматически гарантирует получение несмещенных оценок каузальных эффектов. Они полагают, что методологический плюрализм обладает преимуществом перед жесткой приверженностью единственной модели оценивания социальных программ (Picciotto, 2020). В конечном счете выбор метода всегда определяется природой изучаемых проблем. Лучшим методом следует считать тот, который способен дать наиболее убедительные и релевантные ответы в данном конкретном контексте (Deaton, 2020).

В интеллектуальном противостоянии рандомистов и их критиков сложилась патовая ситуация, когда каждая сторона остается при своем мнении. Во многом это связано с тем, что коммуникация между ними была односторонней, поскольку сторонники RCT фактически отказывались вступать в концептуальный диалог со своими оппонентами (Ogden, 2020). Ретроспективно такая дискурсивная стратегия выглядит успешной: критика, даже будучи справедливой, была бессильна подорвать позиции экономики RCT. Велик контраст между аналитической узостью RCT и их академическим, медийным и политическим успехом. Можно сказать, что логика критиков оказалась слабее риторики рандомистов.

У этого имеются как психологические, так и социологические причины. По-видимому, в человеческом сознании есть встроенный механизм, когда в любом эмпирическом результате (тем более экспериментальном) оно склонно видеть не единичный изолированный случай, а проявление некоей общей закономерности. Именно так чаще всего происходит с результатами рандомизированных экспериментов. Когда экономисты вставляют в названия своих работ слово «каузальный», они явно имеют в виду нечто большее, чем единичный случай, наблюдаемый при уникальном стечении обстоятельств. Всегда есть соблазн распространить впечатляющие результаты конкретного исследования далеко за границы исходного контекста. Как показывает опыт, противостоять этому искушению не способны ни сами исследователи, ни те, кому они дают советы. Против такой встроенной психологической установки любая концептуальная критика бессильна14.

Другой психологический фактор — иллюзия «беспредпосылочности» RCT. Рандомисты утверждают, что рандомизированные эксперименты позволяют получать несмещенные оценки «истинного» каузального эффекта, поскольку они основываются только на законе больших чисел и полностью свободны от гипотез, теорий и предположений15. Неудивительно, что люди склонны больше доверять таким оценкам, чем тем, которые сопровождаются длинным списком условий, оговорок и допущений. Противостоять и этому искушению психологически очень трудно.

Большой вклад в популяризацию и распространение RCT внесли неправительственные организации и частные благотворительные фонды. С одной стороны, объектом финансирования со стороны НПО чаще всего становятся сравнительно небольшие гуманитарные интервенции, для оценки эффективности которых идеально подходят RCT. С другой стороны, сами рандомисты предпочитают иметь дело с НПО, потому что они более гибкие, менее забюрократизированные и более открытые для инноваций, чем правительственные агентства (Cohen, Easterly, 2010). Можно даже говорить о своеобразном разделении труда между представителями старой и новой школ экономики развития: экспертные услуги первых чаще востребованы государственными структурами развивающихся стран, вторых — неправительственными организациями и частными благотворительными фондами развитых стран.

Привлекательность RCT для академических исследователей объясняется двойной мотивацией. С одной стороны, чисто проведенный рандомизированный эксперимент практически гарантирует автору публикацию в ведущем журнале и вхождение в лигу суперпрофессионалов экономического сообщества. С другой стороны, это позволяет ему осознавать себя супергуманистом, проявляющим заботу о наиболее страдающей и обездоленной части человечества. Естественно, для новых поколений экономистов такая двойная мотивация обладает неотразимой силой.

Отсюда достаточно парадоксальный финал рассматриваемого интеллектуального противостояния: хотя с чисто научной точки зрения аргументы критиков зачастую выглядят предпочтительнее, с практической — абсолютными победителями из спора вышли рандомисты. Никакая критика не смогла подорвать их авторитет в глазах научного сообщества, политиков, СМИ и широкой публики. Скорее всего, поток исследований с использованием RCT будет становиться все шире, их репутация в академической среде — все выше, а их интеллектуальное и политическое влияние — все сильнее.


1 https: www.povertyactionlab.org

2 Описание наиболее известных рандомизированных контролируемых экспериментов в рамках экономики развития см. в: Банерджи, Дюфло, 2021; Ениколопов, 2020.

3 По сути, речь идет ни много ни мало как о смене дисциплинарного идеала: на протяжении двух с лишним столетий экономическая наука мечтала походить на теоретическую физику, но в конце концов стала напоминать медицинскую статистику (Капелюшников, 2021).

4 Активное проникновение в экономическую науку эксперименталистского подхода сопровождалось изменением ее рабочего языка. Из лексикона экономистов практически исчезло понятие «закон», его место заняло понятие «причина». В самом деле, если раньше экономическая наука претендовала на открытие неких общих законов, то теперь ее сверхзадача свелась к выявлению конкретных причин тех или иных частных явлений, наблюдаемых здесь и сейчас. Значение этой переориентации трудно переоценить: установка на обнаружение универсальных закономерностей сменилась установкой на отыскание специфических причин, действие которых ограничено определенным локальным контекстом.

5 «Неотъемлемой частью профессиональной одержимости в экономической науке стало стремление к получению „каузальных эффектов", даже если идентифицируемые эффекты не имеют социального значения и или экономического смысла» (Heckman, 2020. Р. 306).

6 Когда мы говорим о случайном характере формирования выборки и случайном характере ее разбивки на экспериментальную и контрольную группы, то имеем в виду использование процедур, основанных на случайности, — наподобие бросания игральных костей, вращения колеса рулетки, вытаскивания из урны черных и белых шаров или генератора случайных чисел.

7 Но даже резкое увеличение размера выборки ничего не гарантирует: если имеется очень большое число факторов, способных влиять на исход, то обеспечить баланс между экспериментальной и контрольной группами по всем этим факторам вряд ли возможно (Deaton, Cartwright, 2018).

8 Когда мы говорим о «контексте», то имеем в виду множество разных вещей: идентичность агента, осуществлявшего вмешательство (академические исследователи, НПО, правительственные агентства); квалификацию нанятого персонала; особенности местной, региональной и национальной культур, обычаев и институтов; технику опроса и даже погоду и время суток (Ogden, 2020).

9 В своей нобелевской лекции он заявил даже, что оценка внешней валидности — это просто «акт веры» (Banerjee, 2020).

10 В этом контексте некоторые критики справедливо вспоминают знаменитый пример Б. Рассела про курицу, которая после сотни повторений вывела закономерность, что стоит только ей услышать шаги фермера, как у нее тут же появляется корм, пока в день накануне Рождества после послышавшихся шагов фермера ей не свернули шею (Deaton, 2020).

11 Многие наблюдатели обращают внимание на этическую уязвимость проводимых рандо-мистами экспериментов (Abramowicz, Szafarz, 2020). Так, в них не соблюдается принцип информированного согласия, строго обязательный для клинических испытаний в медицине, когда испытуемые в явной форме подтверждают свое согласие на участие в эксперименте. Нарушается и принцип равного отношения ко всем его участникам из-за фактической дискриминации, которой во многих случаях подвергаются индивиды из контрольной группы, когда им отказывают в получении помощи (например, таблеток от гельминтов), в благотворности которой уверены экспериментаторы: «Рандомизаторы готовы пожертвовать благополучием участников исследования ради получения новых знаний» (Ziliak, Teather-Posadas, 2014. Р. 1). В медицинских клинических испытаниях это также считается недопустимым. Нередко в RCT люди, нуждающиеся в помощи, ее не получают, а ее оказывают тем, кто в ней не нуждается (Ravallion, 2020). Наконец, этический дискомфорт вызывает сама ситуация, когда успешные академические исследователи из развитых стран используют бедняков из развивающихся для улучшения своего профессионального CV (Deaton, 2020).

12 Ср. с аналогичными рассуждениями Дитона: «Великие эпизоды сокращения материальной бедности в мире, особенно в Китае и Индии, были вызваны экономическим ростом и глобализацией. Общий рост шел вместе с ростом в отдельных сферах — вместе с увеличением количества рабочих мест, расширением возможностей, разрастанием дорожной сети, появлением лучших по качеству и более многочисленных школ и клиник, но в экономиках с хорошими институтами, где шел быстрый рост, все такого рода вещи возникали более или менее спонтанно. Насколько мне известно, никто не объявлял RCT ключом к экономическому росту, и трудно вообразить, чтобы они имели хоть какое-то отношение к сокращению бедности в Китае. Испытания на микроуровне часто бывают успешными, но их решающая роль в снижении уровня бедности в мире остается не более чем символом веры» (Deaton, 2020. Р. 39).

13 Большинство исследований, выполненных рандомистами, не соответствуют их собственным критериям строгости и научности, в чем они сами неявно признаются: «Экономисты, — пишут Банерджи и Дюфло, — больше похожи на водопроводчиков: мы решаем проблемы, сочетая интуиции, опирающиеся на науку, какие-то догадки, подкрепленные опытом, и множество проб и ошибок в чистом виде» (Banerjee, Duflo, 2019. Р. 7). Так все-таки — интуиции и догадки или «золотой стандарт» строгости и научности?

14 В этом смысле показательно, что, несмотря на неспособность решить проблему внешней валидности, рандомисты объявляют результаты RCT «глобальным общественным благом», что подразумевает их неограниченную применимость.

15 В действительности свобода RCT от каких-либо априорных предположений является иллюзией. Один исследователь насчитал 26 предпосылок, которые должны выполняться, чтобы отдельный эксперимент мог давать несмещенную оценку каузального эффекта (Cook, 2018).


Список литературы / References

Банерджи А., Дюфло Э. (2021). Экономика бедных. Радикальное переосмысление способов преодоления мировой бедности. М.: Издат. Института Гайдара. [Banerjee A., Duflo Е. (2021). Poor economics. A radical rethinking of the way to fight global poverty. Moscow: Gaidar Institute Publ. (In Russian).]

Ениколопов P. C. (2020). Доказательная экономика развития: Нобелевская премия по экономике 2019 года. Вопросы экономики. № 1. С. 5 — 17. [Enikolopov R. S. (2020). Evidence based development economics: Nobel Prize in Economic Sciences 2019. Voprosy Ekonomiki, No. 1, pp. 5 — 17. (In Russian).] https: doi.org 10.32609 0042-8736-2020-1-5-17

Капелюшников P. И. (2021). О современном состоянии экономической науки: полусоциологические наблюдения Капелюшников Р. И. Экономические очерки. История идей, методология, неравенство и рост. М.: Издат. дом НИУ ВШЭ. С. 298—322. [Kapeliushnikov R. I. (2021). On the current state of economic science: Semi-sociological observations. In: Kapeliushnikov R. I. Economic essays. History of ideas, methodology, inequality, and growth. Moscow: HSE Publ., pp. 298—322. (In Russian).]

Abramowicz M., Szafarz A. (2020). Ethics of RCTs: Should economists care about equipoise? In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 280—292. https: doi.org 10.1093 oso 9780198865360.003.0012

Aiken A. M., Davey C., Hargreaves J. R., Hayes R. J. (2015). Re-analysis of health and educational impacts of a school-based deworming programme in Western Kenya: A pure replication. International Journal of Epidemiology, Vol. 44, No. 5, pp. 1572 — 1580. https: doi.org 10.1093 ije dyvl27

Angrist J. D., Pischke J.-S. (2010). The credibility revolution in empirical economics: How better research design is taking the con out of econometrics. Journal of Economic Perspectives, Vol. 24, No. 2, pp. 3 — 30. https: doi.org 10.1257 jep.24.2.3

Banerjee A. V. (2005). “New development economics” and the challenge to theory. Economic and Political Weekly, Vol. 40, No. 40, pp. 4340 — 4344.

Banerjee A. V. (2006). Making aid work. Boston Review, Vol. 31, No. 4, pp. 7—9.

Banerjee A. V. (2009). Big answers for big questions: The presumption of growth policy. In: J. Cohen, W. Easterly (eds.). What works in development?: Thinking big and thinking small. Washington, DC: Brookings Institution Press, pp. 207—221.

Banerjee A. V. (2020). Field experiments and the practice of economics. American Economic Review, Vol. 110, No. 7, pp. 1937—1951. https: doi.org 10.1257 aer.110.7.1937

Banerjee A., Duflo E., Glennerster R. (2008). Putting a band-aid on a corpse: Incentives for nurses in the Indian public health care system. Journal of the European Economic Association, Vol. 6, No. 2 — 3, pp. 487—500. https: doi.org 10.1162 JEEA.2008.6.2-3.487

Banerjee A., Duflo E. (2019). Good economics for hard times: Better answers to our biggest problems. New York: Public Affairs.

Banerjee A., Duflo E. (2020). How poverty ends. The many paths to progress — and why they might not continue. Foreign Affairs, Vol. 99, No. 1, pp. 22—29.

Bedecarrats E, Guerin I., Roubaud F. (2019). All that glitters is not gold. The political economy of randomized evaluations in development. Development and Change, Vol. 50, No. 3, pp. 735-762. https: doi.org 10.1111 dech.12378

Bedecarrats E, Guerin I., Roubaud F. (2020). Editors introduction. Controversies around RCTs. In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 1—28. https: doi.org 10.1093 oso 9780198865360.003.0001

Bernard T., Delarue J., Naudet J.-D. (2012). Impact evaluations: A tool for accountability? Lessons from experience at Agence Fran^aise de Developpement. Journal of Development Effectiveness, Vol. 4, No. 2, pp. 314 — 327. https: doi.org 10.1080 19439342.2012.686047

Bold Т., Kimenyi М., Mwabu G., Ng’ang’a A., Sandefur J. (2013). Scaling up what works: Experimental evidence on external validity in Kenyan education. CGD Working Paper, No. 321. Washington, DC: Center for Global Development.

Broadbent A., Vandenbroucke J. P., Pearce N. (2017). Formalism or pluralism? A reply to commentaries on “Causality and causal inference in epidemiology”. International Journal of Epidemiology, Vol. 45, No. 6, pp. 1844 — 1861. https: doi.org 10.1093 ije dyw298

Cohen J., Dupas P. (2010). Free distribution or cost-sharing? Evidence from a randomized malaria prevention experiment. Quarterly Journal of Economics, Vol. 125, No. 1, pp. 1 — 45. https: doi.org 10.1162 qjec.2010.125.1.1

Cohen J., Easterly W. (2010). What works in development?: Thinking big and thinking small. Washington, DC: Brookings Institution Press.

Cook T. (2018). Twenty-six assumptions that have to be met if single random assignment experiments are to warrant “gold standard” status: A commentary on Deaton and Cartwright. Social Science and Medicine, Vol. 210, pp. 37—40. https: doi.org 10.1016 j.socscimed.2018.04.031

Davey C., Aiken A. M., Hayes R. J., Hargreaves J. R. (2015). Re-analysis of health and educational impacts of a school-based deworming programme in Western Kenya: A statistical replication of a cluster quasi-randomized stepped-wedge trial. International Journal of Epidemiology, Vol. 44, No. 5, pp. 1581 — 1592. https: doi.org 10.1093 ije dyvl28

de Cler A.-P. (2021). The rise and fall of a gold standard: The case of randomized controlled trials within the experimentation for Youth Fund. Master’s Thesis. Paris: SciencesPo, School of Public Affairs.

Deaton A. (2006). Evidence-based aid must not become the latest in a long string of development fads. Boston Review, Vol. 31, No. 4, pp. 13 — 14.

Deaton A. (2010). Instruments, randomization, and learning about development. Journal of Economic Literature, Vol. 48, No. 2, pp. 424 — 455. https: doi.org 10.1257 jel.48.2.424

Deaton A. (2020). Randomization in the tropics revisited: A theme and eleven variations. In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 29 — 46. https: doi.org 10.1093 oso 9780198865360.003.0002

Deaton A., Cartwright N. (2018). Understanding and misunderstanding randomized controlled trials. Social Science and Medicine, Vol. 210, pp. 2—21. https: doi.org 10.1016 j.socscimed.2017.12.005

Duflo E. (2005). Evaluating the impact of development aid program: The role of randomized evaluations. In: Development aid: Why and how? Towards strategies for effectiveness. Paris: AFD-EUND. Notes and Documents, No. 22, pp. 207—245.

Duflo E. (2017). The economist as plumber. American Economic Review, Vol. 107, No. 5, pp. 1—26. https: doi.org 10.1257 aer.p20171153

Duflo E., Dupas P., Kremer M. (2015). School governance, teacher incentives, and pupil—teacher ratios: Experimental evidence from Kenyan primary schools. Journal of Public Economics, Vol. 123, pp. 92 — 110. https: doi.org 10.1016 j.jpubeco. 2014.11.008

Duflo E., Hanna R., Ryan S. P. (2012). Incentives work: Getting teachers to come to school. American Economic Review, Vol. 102, No. 4, pp. 1241 — 1278. https: doi. org 10.1257 aer.102.4.1241

Duflo E., Kremer M. (2008). Use of randomization in the evaluation development effectiveness. In: W. R. Easterly (ed.). Reinventing foreign aid. Cambridge, MA: The MIT Press, pp. 93 — 120.

Dupas P. (2014). Short-run subsidies and long-run adoption of new health products: Evidence from a field experiment. Econometrica, Vol. 82, No. 1, pp. 197—228. https: doi.org 10.3982 ECTA9508

Easterly W. (2009). Development experiments: Ethical? Feasible? Useful? Development Research Institute, July 15. https: www.nyudri.org aidwatcharchive 2009 07 development-experiments-ethical-feasible-useful

Favereau J. (2016). On the analogy between field experiments in economics and clinical trials in medicine. Journal of Economic Methodology, Vol. 23, No. 2, pp. 203—222. https: doi.org 10.1080 1350178X.2016.1157202

Favereau J., Nagatsu M. (2020). Holding back from theory: Limits and methodological alternatives of randomized field experiments in development economics. Journal of Economic Methodology, Vol. 27, No. 3, pp. 191—211. https: doi.org 10.1080 1350178X.2020.1717585

Heckman J. J. (2020). Epilogue: Randomization and social policy evaluation revisited. In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 304 — 330. https: doi.org 10.1093 oso 9780198865360.003.0014

Imbens G. (2010). Better LATE than nothing: Some comments on Deaton (2009) and Heckman and Urzua (2009). Journal of Economic Literature, Vol. 48, No. 2, pp. 399 — 423. https: doi.org 10.1257 jel.48.2.399

loannidis J. (2018). Randomized controlled trials: Often flawed, mostly useless, clearly indispensable: A commentary on Deaton and Cartwright. Social Science Medicine, Vol. 210, pp. 53 — 56. https: doi.org 10.1016 j.socscimed.2018.04.029

Jerven M. (2015). Africa: Why economists get it wrong (African arguments). London: ZedBooks.

Kenny С. P., Pritchett L. (2013). Promoting millennium development ideals: The risks of defining development down. Center for Global Development Working Paper, No. 338. https: doi.org 10.2139 ssrn.2364643

Labrousse A. (2020). The rhetorical superiority of poor economics. In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 227—255. https: doi.org 10.1093 oso 9780198865360.003.0010

Lancet (2004). The World Bank is finally embracing science. The Lancet, Vol. 364, pp. 731-732. https: doi.org 10.1016 S0140-6736(04)16945-6

Leigh A. (2018). Randomistas: How radical researchers are changing our world. New Haven and London: Yale University Press, https: doi.org 10.12987 9780300240115

Miguel E., Kremer M. (2004). Worms: Identifying impacts on education and health in the presence of treatment externalities. Econometrica, Vol. 72, No. 1, pp. 159—217. https: doi.org 10.1111 j.1468-0262.2004.00481.x

Ogden T. N. (2020). RCTs in development economics, their critics, and their evolution. In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 126 — 151. https: doi.org 10.1093 oso 9780198865360.003.0006

Picciotto R. (2020). Are the “randomistas” evaluators? In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 256—279. https: doi.org 10.1093 oso 9780198865360.003.0011

Pritchett L. (2014). An homage to the randomistas on the occasion of the J-PAL 10th anniversary: Development as a faith-based activity. Center for Global Development, March 10. https: www.cgdev.org blog homage-randomistas-occasion-j-pal-1 Oth-anniversary-development-faith-based-activity

Pritchett L. (2020). Randomizing development: Method or madness? In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 79—107. https: doi.org 10.1093 oso 9780198865360.003.0004

Pritchett L., Sandefur J. (2013). Context matters for size: Why external validity claims and development practice don’t mix. Center for Global Development Working Paper, No. 336. https: doi.org 10.2139 ssrn.2364580

Ravallion M. (2020). Should the randomistas (continue to) rule. In: F. Bedecarrats, I. Guerin, F. Roubaud (eds.). Randomized control trials in the field of development: A critical perspective. Oxford: Oxford University Press, pp. 47—78. https: doi.org 10.3386 w27554

Rodrik D. (2009). The new development economics: We shall experiment, but how shall we learn? In: J. Cohen, W. Easterly (eds.). What works in development?: Thinking big and thinking small. Washington, DC: Brookings Institution, pp. 24 — 47.

Royal Swedish Academy of Sciences (2019). Press release: The Prize in Economic Sciences 2019. https: www.nobelprize.org prizes economic-sciences 2019 press-release

Vass M. (2010). Prevention of functional decline in older people: The Danish randomised intervention trial on preventative home visits. Doctoral Dissertation. Copenhagen: University of Copenhagen, Faculty of Health Science.

Vivalt E. (2020). How much can we generalize from impact evaluations? Journal of the European Economic Association, Vol. 18, No. 4, pp. 3045—3089. https: doi.org 10.1093 jeea jvaa019

Ziliak S. T., Teather-Posadas E. R. (2014). The unprincipled randomization principle in economics and medicine. Available at SSRN: https: ssrn.com abstract=2396806