Мы обновили результаты, включив в них последние испытания, и теперь в Кокрейновском обзоре – 234 испытания, исследующих 60 различных клинических состояний3. Мы подтвердили первоначальные результаты, что плацебо-вмешательства в целом не оказывают важного клинического эффекта и что трудно отличить истинный эффект плацебо от предвзятого сообщения о нем.
Вы, наверное, удивлены, почему я так много говорю об эффектах плацебо, а не лекарств. Это потому, что эффекты лекарств определяют по сравнению с плацебо в плацебо-контролируемых исследованиях. И если ослепление не безупречно, мы ожидаем, что сообщенный эффект от лекарства преувеличен, особенно когда результаты субъективны, как в случае с общим настроением или болью.
Как часто ослепление не работает? Довольно часто, по двум причинам. Во-первых, в испытаниях, называемых двойными слепыми, возможно, не было проведено эффективного ослепления в самом начале. Например, исследователи, которые провели шесть двойных слепых исследований антидепрессантов или транквилизаторов, отметили, что во всех случаях плацебо отличалось от активного препарата по физическим характеристикам, таким как текстура, цвет и толщина4. Во-вторых, даже когда препарат и плацебо неотличимы по своим физическим характеристикам, обычно трудно поддерживать ослепление во время испытания, потому что лекарства имеют побочные эффекты, например, антидепрессанты вызывают сухость во рту.
Из-за всех этих проблем истинная разница в улучшении состояния в 60% и 50% при использовании, соответственно, антидепрессантов и плацебо, вероятно, значительно меньше, чем 10%. Но давайте сначала предположим, интереса ради, что эти показатели верны, и разработаем испытание со следующими показателями улучшения (смотрите таблицу 3.1, стр. 76). Мы случайно разделили 400 пациентов на две группы, при этом у 121 из 200 пациентов (60,5%) было улучшение на активном лекарстве, а у 100 из 200 пациентов (50,0%) – на плацебо. Следует ли считать, что лекарство лучше, чем плацебо, или могла ли разница, которую мы наблюдали, возникнуть случайно? Мы можем проанализировать это, задав следующий вопрос: насколько частой будет разница в 21 пациента или более, если повторить это испытание много раз? Правда состоит в том, что лекарство не имеет никакого эффекта.
Таблица 3.1. Результаты рандомизированного исследования, сравнивавшего антидепрессант с плацебо
Это тот случай, когда статистика очень полезна. Статистический тест вычисляет значение P, которое показывает вероятность того, что мы будем наблюдать разницу в 21 пациента или больше, если лекарство не работает. В этом случае Р = 0,04. Медицинская литература полна значениями P, и традиция такова, что если значение P меньше 0,05, то мы говорим, что разница статистически достоверна, и верим, что разница, которую мы нашли, реальна. Р=0,04 означает, что мы наблюдали бы разницу в 21 пациента и более четыре раза из ста, если лекарство не работает, и мы повторили наше испытание много раз.
Если бы на два пациента меньшего чувствовали себя лучше на активном лекарстве, то есть 119, а не 121, то разница все равно была бы почти такой же, но при этом она не была бы статистически достоверной (Р = 0,07).
Этот пример иллюстрирует то, что весьма часто «доказательство» эффективности лечения зависит всего от нескольких пациентов. Это верно даже для случая, когда, как в этом примере, в исследование были рандомизированы 400 пациентов, а это довольно крупное исследование депрессии.
Как правило, не требуется предпринимать больших усилий, чтобы превратить недостоверный результат в достоверный. Иногда исследователи или компании переосмысливают или повторно анализируют данные, после того как получают значение P выше 0,05, до тех пор, пока не придут к значению Р ниже 0,05. Это они делают путем, например, вранья о том, что еще у нескольких пациентов на активном лекарстве было улучшение или еще у нескольких пациентов на плацебо не было улучшения или за счет исключения некоторых рандомизированных пациентов из анализа5.
Это нечестный подход к науке, но, как мы увидим в главах 4 и 8, нарушения в научной практике очень широко распространены.
Помимо такого мошенничества, недостаточное «ослепление» в исследованиях может также подвести нас к представлению, что неэффективные препараты эффективны. «Ослепление» важно не только когда пациенты оценивают свое состояние, но и когда их оценивают врачи. Депрессия имеет сложную шкалу, включающую множество субъективных элементов, и совершенно очевидно, что знание того, какое лечение получает пациент, может положительно влиять на оценку врачом эффективности этого лечения.
Это было убедительно продемонстрировано Хробьяртссоном и коллегами в 2012 году с помощью серии клинических испытаний при различных заболеваниях, в которых участвовали как «ослепленные», так и «не ослепленные» подопытные. Обзор 21 такого испытания, в которых в основном использовались субъективные результаты, показал, что эффект вмешательства был преувеличен в среднем на 36% при оценке его «не ослепленными» исследователями по сравнению с «ослепленными»6. Это очень большое смещение, учитывая, что заявленный эффект большинства лечебных вмешательств гораздо ниже, чем 36%.
Таким образом, двойное слепое исследование, в котором «ослепление» недостаточно эффективно, может преувеличивать эффект весьма существенно. Можем проверить это на нашем примере с антидепрессантами, допуская для простоты, что «ослепление» нарушается у всех пациентов. Для расчета соотношения шансов мы переставим числа так, чтобы низкое значение символизировало полезный положительный эффект, что вполне соответствует принятой договоренности (смотрите таблицу 4.2). Соотношение шансов для достоверного эффекта составляет (79´100)/(121´100) = 0,65. Так как мы ожидаем, что этот эффект преувеличен на 36%, можно оценить, каков истинный эффект. Смещение в 36% означает, что отношение между смещенным и истинным результатом составляет 0,64. Таким образом, истинный результат рассчитываем так: 0,65/0,64, или 1,02. Так как соотношение шансов теперь около 1, это означает, что антидепрессант не сработал.
Таблица 3.2. Те же результаты, что в таблице 3.1, но переставленные
Этот пример был слишком упрощенным, поскольку «ослепление» редко нарушается для всех пациентов, но упражнение тем не менее отрезвляет. Даже если «ослепление» нарушается только по отношению к нескольким пациентам, этого может быть достаточно, чтобы сделать недостоверный результат достоверным. Хробьяртссон c коллегами отметили в своем обзоре, что 36-процентное преувеличение эффекта лечения, связанное с отсутствием «ослепления» оценщиков, было вызвано неправильным распределением результатов по медиане у 3% оцененных пациентов на каждое клиническое испытание (что соответствует 12 пациентам из общего числа, в данном случае – 400).
Требуется очень небольшое нарушение принципа «ослепления», чтобы превратить совершенно неэффективный препарат в якобы эффективный.
Невозможно переоценить важность этого открытия. Большинство лекарств имеют выраженные побочные эффекты, поэтому не может быть никаких сомнений, что «ослепление» нарушается у многих пациентов в большинстве плацебо-контролируемых исследований. Когда мы используем лекарства, чтобы спасти людей от смерти, нарушения «ослепления» не имеют значения, так как мы можем с уверенностью сказать, жив пациент или нет. Однако такие ситуации редки. В большинстве случаев лекарства используются для снижения симптомов или уменьшения риска осложнений при болезни, и результаты очень часто субъективны, например уровень депрессии или шизофрении, тревоги, слабоумия, боли, качества жизни, функциональных способностей (часто называемых повседневной активностью), тошноты, бессонницы, кашля и одышки. Даже решение о том, перенес ли пациент сердечный приступ, может быть довольно субъективным (смотрите главу 4, стр. 86).