Контроль
Для каждого исследования чего угодно необходимо задавать точку отсчета, чтобы результаты было с чем сравнивать: если что-либо на 30 % лучше, то нам необходим 0 %, чтобы понять лучше чего. Устаревшие протоколы за ноль принимали простую контрольную группу, которая просто не принимала препарат/не подвергалась клиническим пыткам; теперь это отвергнуто: откуда мы знаем, что исследуемая группа именно испытала эффект от препарата, а не надумала его самовнушением?
Чтобы исключить эффект самовнушения, контрольные группы начали кормить бесполезными лекарствами. Теперь и исследуемая группа, и контрольная жрут одинаковые по весу, форме, цвету, вкусу таблетки, но у каких-то внутри есть действующее вещество, а у каких-то нет. У каких никто не знает, это называется ослепление: не знают подопытные (одинарное), не знают врачи (двойное слепое), не знают даже медсестры не знает комиссия, обрабатывающая результаты (тройное).
Плацебо никак не действует на организм, это может быть не только таблетка, но и безобидные магниты с холодильника, мигающие лампочки или фейковая акупунктура, в зависимости от того, что исследуют.
Последнее время контроль нередко проводится не с плацебо, а с конвенциональным лечением (уже утвержденным и многократно проверенным), в тех случаях, когда нельзя пациентов оставить совсем без лечения. Тогда одной группе дают стандартную терапию, а другой стандартную + исследуемую и сравнивают различия.
Значимость
«Иные врачи двадцать лет кряду делают одни и те же ошибки и называют это клиническим опытом». – Н. Фэбрикант
Каждое исследование должно иметь подтверждения своих выводов в массе подобных, иначе практические выводы сделать нельзя; для анализа и оценки статей есть толпы экспертов типа ВОЗ, которые в итоге выдают простым смертным врачам клинические рекомендации (гайдлайны, гайды, «guidelines») на основе лучших доказательств. При изучении работ надо строго разделять показатели процесса (любые изменения параметров) и показатели собственно результата (именно они имеют клиническую значимость), к которым приводят те изменения. Во время чтения публикаций или спора со сторонником какого-либо метода нужно придерживаться этого разделения, поскольку не составляет труда показать действие возможного фактора на процесс, а вот выяснение достоверного результата и его положительной связи с тем фактором требует серьезной работы.
Исследовательские работы можно отнести к тому или иному виду по весу доказательности, что зависит от его структуры (по уменьшению крутизны):
1. Систематический обзор посредством мета-анализа: доказательный потолок на данный момент, круче еще не придумали (разве что мета-анализ метаанализов): берется пачка схожих клинических испытаний одного метода, высчитываются их общие и различные параметры, анализируется совпадение/несовпадение результатов. Благодатность метода в том, что обеспечивается более высокая статистическая чувствительность (мощность), чем в отдельных испытаниях, особенно когда они противоречат друг другу. Одна из существенных ценностей меты в том, что вроде бы схожие исследования имеют разных авторов, время и место проведения, а также различные выборки, что почти исключает возможность баеса (см. дальше).
2. РКИ (рандомизированное клиническое исследование, «randomized clinical trial», «RCT»): столп доказательности, придуманный именно чтобы различить, что же явилось следствием воздействия, а что – случайностью. Заключается в динамическом наблюдении профилактического/диагностического/лечебного вмешательства, которые применяются к случайно сформированным (рандомизированным) группам из конкретной выборки пациентов. Все возможные факторы одинаково действуют на группы подопытных, только в одной это будет полностью плацебо-эффект, а во второй – непосредственно эффект медицинского вмешательства, из которого можно вычесть первый и получить кристаллизованную достоверность в виде подтверждения/опровержения изначальной гипотезы.
3. Популяционное (проспективное, когортное, продольное) исследование: выделяются два отряда населения (когорты), например, которые подвергались фактору риска и не подверженные ему, затем за ними длительно наблюдают, обследуют и сравнивают данные. Используется для определения прогноза и причин заболеваний, их факторов риска и уровня заболеваемости, что весьма трудоемко из-за необходимости больших выборок (новые случаи заболеваний могут оказаться слишком редкими) и длительности наблюдения этих больших групп.
4. Аналитическое одномоментное исследование (поперечное): используется для оценки эффективности диагностики, распространенности исходов и течения заболеваний практически в реальном времени – по сути это срез базы данных по каким-либо критериям.
5. Исследование случай – контроль (ретроспективное): берется архив историй болезни и прогоняется через статистику, что позволяет получить относительно точные данные (без внешнего влияния – ведь все наблюдения произошли уже до анализа), на основе которых вполне можно выдвинуть какую-либо гипотезу. Просто, быстро и дешево, но грешит нередкими систематическими ошибками из-за неточных выборок или плохого качества самих описаний случаев.
6. Описание серии случаев: широко используется, но по сути это тот самый «личный многолетний опыт», доказательной ценности имеющий совсем чуть-чуть, поскольку если человек хочет что-то видеть, то он увидит это и на первый, и на десятый, и на тысячный раз. Реально пригодно для описательной статистики, на практике же подло эксплуатируется зарабатывателями денег на БАДах и прочими оппонентами EBM.
7. Описание отдельных случаев – кто-то что-то заметил и написал статью. Полезно для казуистики, но не имеет смысла в описании глобальных проблем и выведения серьезных заключений, т. к. любой отдельный случай сам в себе достоверности не несет. Конечно, описание редких случаев крайне важно для расширения нозологических границ, но строить по ним гипотезы ошибочно.
Доказательность
«В соседних деревнях Вилларибо и Виллабаджо изучали половые органы, и оказалось, что средний размер члена в Вилларибо – 14 см, а в Виллабаджо – 25 см. Откуда же такая разница? Все просто: в Вилларибо меряли линейкой, а в Виллабаджо проводили опрос».
Рейтинг, чтобы показать какое вещество по-настоящему упарывает, какие манипуляции реально приводят к значимому эффекту, а какие – говно и рефлексотерапия.
Обозначаются буквами (уровень результата клинического испытания):
1. A – крутые двойные слепые РКИ на больших выборках и метаанализы.
2. B – мелкие РКИ, особенно с противоречивыми результатами.
3. C – нерандомизированные исследования, основа для фуфломицинов.
4. D – мнение эксперта/группы экспертов.
И цифрами (класс доказательности принятых рекомендаций):
• Класс I. Доказательства и/или общее согласие, что данные методы диагностики/лечения – благоприятные, полезные и эффективные.
• Класс II. Доказательства противоречивы и/или противоположные мнения относительно полезности/эффективности лечения.
• Класс II-а. Большинство доказательств/мнений в пользу полезности/эффективности.
• Класс II-б. Полезность/эффективность не имеют достаточных доказательств/определенного мнения.
• Класс III. Доказательства и/или общее согласие свидетельствует о том, что лечение не является полезным/эффективным и, в некоторых случаях, может быть вредным.
Обратите внимание: здесь не учитываются мнения пациентов на тему «А я принял и мне помогло!».
Бесы
«Bias» (баес), оно же смещение, или систематические ошибки – это собственно то, с чем должна бороться доказательная медицина благодаря РКИ и метаанализам. Исследование с хорошим дизайном, большой выборкой, внятно составленным протоколом, адекватно выбранными измеряемыми исходами и полностью публикуемыми результатами (включая сообщения о прошлой и нынешней заинтересованности участников) приближает долю таких ошибок к нулю.