שקיפות מדעית, מחקרים, דרגות חופש וביקורת על מחקר ה- NEJM בנוגע לרפואת מגדר לנוער – חלק א’.

שקיפות מדעית, מחקרים, דרגות חופש וביקורת על מחקר ה- NEJM בנוגע לרפואת מגדר לנוער – חלק א’.

יש כאן הרבה שאלות ללא מענה, וזה מצער.

ג’סי סינגל, 31 בינואר 2022, תרגום מאת נעמה עציץ

מקור: https://jessesingal.substack.com/p/on-scientific-transparency-researcher

ישנו מושג שנקרא “דרגות חופש של חוקר” והוא חשוב ליכולת שלנו להבין מדע גרוע, דבר שהוא אולי פחות מרושע מהונאת נתונים מוחלטת, אך הרבה יותר נפוץ.

כפי שכתבו ג’וזף פ. סימונס, ליף ד. נלסון ואורי סימונסון ב-2011:

    “במהלך איסוף וניתוח הנתונים, יש לחוקרים החלטות רבות לקבל: האם לאסוף נתונים נוספים? האם יש לשלול תצפיות מסוימות? אילו תנאים כדאי לשלב ואילו כדאי להשוות? אילו משתני בקרה יש לקחת בחשבון? האם יש צורך בשילוב או שינוי של אמצעים ספציפיים, או גם וגם?

    נדיר, ולפעמים לא מעשי, שחוקרים מקבלים את כל ההחלטות הללו מראש. במקום זאת, מקובל (ומוסכם) שחוקרים יחקרו חלופות אנליטיות שונות, יחפשו שילוב שמניב “משמעות סטטיסטית”, ולאחר מכן ידווחו רק על מה ש”עבד”. הבעיה, כמובן, היא שהסבירות שלפחות ניתוח אחד (מני רבים) יפיק ממצא חיובי כוזב ברמה של 5% [מה שנחשב כמדד ביטחון נפוץ למובהקות סטטיסטית במדעי החברה] היא בהכרח גדולה מ-5%.”

כפי שאמרתי בספרי: “אם אני מוכר לך כדור על בסיס נתונים שמראים שהוא מפחית את לחץ הדם ביחס לקבוצת ביקורת שקיבלה פלצבו, אבל לא אספר לך שבחנתי את יעילותו גם מול עשרים וחמש בעיות בריאות אחרות ומכולן יצאתי בידיים ריקות – זה ממצא חלש מאוד. מבחינה סטטיסטית, אם יש לך מספיק נתונים ואתה מריץ מספיק ניסויים, אתה תמיד יכול למצוא משהו שייחשב ‘משמעותי’ לפי הסטנדרטים של המבחנים הסטטיסטיים בהם פסיכולוגים משתמשים ”.

במילים אחרות, “אם תענו מספיק זמן את הנתונים – הם יודו בכל דבר.” ואז, ברגע שתשיגו את ה”וידוי” שאתם מעוניינים בו, אתם יכולים לבצע “הארק” (HARK) – להעלות השערה אחרי שהתוצאות כבר ידועות, בבחינת: “אה, כן, זה מה שציפינו למצוא מההתחלה”. “ידענו שהכדור יעזור להילחם בלחץ דם גבוה.” 

במצב כזה, קיים סיכון רציני שמה שאתם מסתכלים עליו הוא לא כדור שמוריד לחץ דם גבוה, אלא רעש סטטיסטי.

החדשות הטובות הן שיש מודעות הולכת וגוברת בקרב חוקרים בפסיכולוגיה ותחומים אחרים המושפעים ממשברי שכפול, לאופן שבו פרקטיקות אלו יכולות ליצור תוצאות חלשות ובלתי ניתנות לשכפול. רפורמי המדע החלו לבנות ‘מעקות בטיחות’ שמצמצמות ביעילות את יכולות החוקרים ומפחיתות את דרגות החופש שלהם. למשל, אפשר לעודד או לדרוש מחוקרים “לרשום מראש” את ההשערות שלהם ולפרט בדיוק אילו בדיקות סטטיסטיות הם מתכננים לבצע, כך שאם הם ישנו את תוכנית ניתוח הנתונים או השערה באמצע הניסוי, זה יהיה גלוי לכל העולם. אתם יכולים גם לתמרץ או לדרוש מהם לשתף את הנתונים שלהם, מה שמקל על חוקרים אחרים לבדוק ולראות אם הם רימו בסטטיסטיקה.

אני חושב שאת התוצאות החיוביות שדווחו לגבי “תפקוד פסיכו-סוציאלי בנוער טרנסג’נדרי לאחר שנתיים של הורמונים”, ופורסמו במאמר מחקרי במגזין The New England Journal of Medicine (NEJM), ניתן להסביר, לפחות חלקית, על ידי צ’רי פיקינג (בחירה בפינצטה) סטטיסטי שנוטה לייצר ממצאים לא יציבים.

המאמר של NEJM הוא חלק ממחקר שנקרא “טיפול בנוער טרנסי – מחקר בארצות הברית” (TYCUS), אותו מתארים החוקרים כ”מחקר פרוספקטיבי תצפיתי המעריך את התוצאות הגופניות והפסיכו-סוציאליות של טיפול רפואי בדיספוריה מגדרית בשתי קבוצות שונות של נוער: טרנסג’נדרי וא-בינארי.” 

הקבוצה האחת מקבלת חוסמי גיל התבגרות (הצוות עדיין לא דיווח על התוצאות), והשנייה מקבלת הורמונים. מחקר ה-TYCUS מתקיים בארבע מרפאות מגדר גדולות לנוער: המרכז לבריאות והתפתחות נוער טרנסי בבית החולים לילדים בלוס אנג’לס; השירות הרב התמחותי מגדרי בבית החולים לילדים בבוסטון; מרפאת מרכז מגדר לילדים ומתבגרים בבית החולים לילדים בניוף בסן פרנסיסקו; והתוכנית להתפתחות זהות מגדרית ומין בבית החולים ‘לוריא’ לילדים בשיקגו. החוקרים הרשומים כמחברי מחקר זה כוללים כמה מהשמות הגדולים ברפואת מגדר ופסיכולוגיה של נוער: דיאן צ’ן, ג’וני ברונה, יי-מינג צ’אן, דיאן ארנספט, רוברט גארופלו, מרקו א. הידלגו, סטיבן מ. רוזנטל, איימי סי. טישלמן, וג’והנה אולסון-קנדי. חלקם תומכים בגלוי בטיפולי רפואת מגדר לנוער.

הצוות הזה קיבל סכומי מענקים משמעותיים כדי לחקור את האוכלוסייה הזו, ומסיבה טובה: מרפאות מגדר אמריקאיות נמצאות בפיגור גדול בהפקת נתונים שימושיים שיכולים לעזור לנו להבין טוב יותר האם ובאילו נסיבות רפואת מגדר לנוער מועילה לילדים עם דיספוריה מגדרית. כפי שכותבים המחברים בפרוטוקול המחקר שלהם, המטרה שלהם היא “לאסוף נתונים קריטיים על המודלים הקיימים בטיפול בנוער טרנסג’נדרי, שנמצאים בשימוש נפוץ במסגרות קליניות במשך קרוב לעשור, אם כי עם מחקר אמפירי מוגבל מאוד התומך בהם.” 

הם כתבו את זה ב-2016, אבל המצב לא ממש השתנה. אין כמעט נתונים איכותיים או אפילו סבירים, לגבי השאלות החיוניות הללו. באותו עמוד של הפרוטוקול הם כותבים: “מחקר זה משמעותי ביותר בהיקפו שכן זהו מחקר האורך הראשון שאוסף נתונים – בנוגע לתוצאות פיזיולוגיות ונפשיות כאחד – לבחינת קווים מנחים קליניים נפוצים עבור נוער טרנסג’נדרי בארה”ב”.

החוקרים של מחקר ה-NEJM מציינים את הפעם הראשונה שהם פרסמו נתונים על מעקב ארוך טווח אחר הבריאות הנפשית של קבוצת הנוער שקיבלה הורמונים. נראה שהחדשות טובות: הצוות מדווח ששנתיים לאחר מתן הורמונים, הילדים הטרנסג’נדרים במחקר שלהם חוו עלייה בתחושת ההתאמה למראה שלהם או בתחושה שהמראה החיצוני שלהם תואם את זהותם המגדרית והשפעה חיובית. טרנסים (נקבות ביולוגיות) חוו הפחתה בדיכאון ובחרדה ועלייה בשביעות הרצון מהחיים, אך טרנסיות (זכרים ביולוגים) לא.

על בסיס הממצאים הללו זוכה המחקר לפרסום נרחב, הן על ידי רוב כלי התקשורת המרכזיים שסיקרו אותו והן על ידי המחברים עצמם, כראיה מוצקה לכך שהורמונים משפרים את רווחתו של נוער טרנסי. “התוצאות שלנו מספקות בסיס מדעי חזק לכך שטיפול מאשרר מגדר הוא חיוני לרווחתם הפסיכולוגית של המטופלים שלנו”, אמר גארופלו, אחד החוקרים הראשיים של המחקר ומנהל שותף של מרפאת המגדר לנוער בבית החולים לילדים ‘לוריא’, בהודעה לעיתונות שפרסם בית החולים. “התוצאות הקריטיות עליהן אנו מדווחים, מדגימות את ההשפעה הפסיכולוגית החיובית של הורמונים מאשררי מגדר לטיפול בנוער עם דיספוריה מגדרית”, הוסיפה אולסון-קנדי, המנהלת הרפואית של מרפאת בית החולים לילדים בלוס אנג’לס.

אני לא מסכים עם המסקנות הללו, אבל אדבר על זה בחלק הבא של הביקורת שלי על המחקר הזה שיתמקד בתוצאות שעליהן דיווחו החוקרים. מאמר זה עוסק בעיקר בתוצאות עליהן הם לא דיווחו, עניין חשוב בפני עצמו.

הטענה שלי שמשהו מפוקפק מתרחש כאן היא פשוטה ונשענת במידה רבה על פרוטוקול המחקר(10) שכתבו המחברים כחלק מתהליך האישור של הוועדה המוסדית לאתיקה (IRB) שלהם. מסמך זה מופיע כדו”ח רשום ומקושר מדף ה-NEJM של המאמר שלהם:

אתם יכולים לקרוא או להוריד את הפרוטוקול, העיתון והנספח המשלים, אליו נגיע בהמשך כאן.

הפרוטוקול הוא מסמך ארוך ועשיר, ובין יתר המידע הכתוב בו הוא מפרט את נהלי המחקר, הן עבור קבוצת ההורמונים והן עבור קבוצת הבלוקרים. בסעיף המשלים של המסמך ישנה הערה המסבירה שהוא כולל גם את הגרסה ה”מקורית” (2016) וגם את הגרסה ה”סופית” של הפרוטוקול. אצטט מהגרסה הסופית (ולכן הישימה יותר) שהוגשה ב-11 במאי 2021, אם כי כשזה מגיע למה שאני עומד לדון בו, אין הבדלים מהותיים בין שתי הגרסאות (למעט דבר אחד אליו אגיע במהשך).

מסמך הפרוטוקול פועל למעשה כרישום מראש עבור צ’ן וצוותה (הם גם פרסמו גרסה קצרה יותר שלו כדו”ח רשום, סוג של רישום רשמי מוקדם יותר), והוא מראה שבמחקר ה-NEJM החוקרים פשוט שללו את רוב המשתנים המשמעותיים שהם שיערו שעשויים להשתפר כתוצאה מהורמונים ושינו את ההשערה שלהם באופן משמעותי, באופן כזה שמסיט הצידה חלק מהמשתנים האלה.

בואו נפרט מה עשו המחברים ומדוע זה מעורר שאלות. 

הם מפרטים מספר השערות במסמך הפרוטוקול שלהם, אחד מהם מתאים למחקר הנוכחי: “השערה א2: מטופלים הנוטלים הורמונים מאשררי מגדר יפגינו ירידה בתסמינים של חרדה ודיכאון, דיספוריה מגדרית, פציעה עצמית, תסמיני טראומה ואובדנות, ויחוו שיפור בדימוי הגוף ואיכות החיים לאורך זמן.”

התת-סעיף הראשון של מדור “הניתוח הסטטיסטי” שלהם הוא “מטרה ראשית: השפעות של התערבויות הורמונליות על בריאות הנפש והרווחה הפסיכולוגית”. שם מסבירים המחברים שהניתוח שלהם “יבחן את השינויים לאורך זמן בדיספוריה מגדרית, דיכאון , חרדה, תסמיני טראומה, פציעה עצמית, אובדנות, דימוי גוף ואיכות חיים”. בין ההשערה לפסקת המטרה העיקרית הזו – זה די ברור מה הם היו הכי מעוניינים לחקור.

בנספח II של מסמך הפרוטוקול, החוקרים כוללים תרשים של האמצעים בהם הם מתכננים להשתמש כדי לעקוב אחר משתנים אלה ואחרים. עם זאת, זה קצת מיושן, מכיוון שהם עדיין משתמשים ב”הורמונים חוצי מין” ולא ב”הורמונים מאשררי מגדר” וכוללים כמה משתנים שהחוקרים הורידו לאחר מכן. גרסה עדכנית יותר ניתנת להורדה כאן, והנה החלק המפרט את כל המשתנים שלגביהם נאספו נתונים בכל סיבוב של שישה חודשים במחקר (אלו הנתונים שהחוקרים ידווחו עליהם. במחקר גדול):

אוקיי, עכשיו בואו נקפוץ לסעיף המדידות של המחקר הנוכחי ב-NEJM, שם החוקרים מפרטים את המשתנים שלהם: “בהתייחס לתוצאות האורך, המשתתפים השלימו את סולם הטרנסג’נדרים המוסכם, את מדד הדיכאון ‘בק-II’, את המדד המעודכן לחרדה בילדים (מהדורה שנייה), ואת מדדי ההשפעה החיובית ושביעות הרצון מהחיים על פי מדדי ה- NIH (המכון הלאומי לבריאות) בכל ביקור במהלך המחקר.”

אם תשוו את זה למסמך הפרוטוקול, תבחינו שמתוך שמונת המשתנים המרכזיים בהם החוקרים הכי התעניינו – “דיספוריה מגדרית, דיכאון, חרדה, תסמיני טראומה, פציעה עצמית, אובדנות, דימוי גוף ואיכות חיים” – אלה המודגשים לא דווחו במאמר ב- NEJM. זה שישה מתוך שמונה, כלומר 75% מהמשתנים שנכתבו על ידי החוקרים בהשערה של מסמך הפרוטוקול שלהם (כולל בגרסה ה”רשמית” הקצרה הרשומה מראש).1

למעשה, רוב המשתנים הללו אינם מוזכרים כלל במאמר NEJM או בנספח המשלים שלו. “דיספוריה מגדרית” עולה מוקדם במאמר, כי טוב, איך אפשר שלא כאשר מדובר במאמר על דיספוריה מגדרית, אבל אין אזכור כלל לסולם מדדים של דיספוריה מגדרית (זה המשתנה החסר שיש להם הסבר חלקי אך לא מופרך עבורו, אליו עוד אגיע). הביטוי “איכות חיים” או כל אזכור של סולם מדדים בנוגע לאיכות החיים הקשור לבריאות – לא מופיעים במאמר. המחברים אמנם מדווחים על מספר ההתאבדויות שהתרחשו ועל המקרים של המחשבות האובדניות במדגם (עוד על כך בחלק 2), אבל אין אזכור לסולם האובדנות עליו הם דיווחו במסמך מאפייני הבסיס והיה אמור לאפשר להם לנתח סטטיסטית את רמת האובדנות של המדגם לאורך זמן, כפי שהם ניתחו את מסלולי האורך של משתנים אחרים. (כן יש להם נתונים לגבי דימוי לגוף ואובדנות, כי הם מדווחים על המספרים הבסיסיים של המשתנים האלה במאמר משנת 2021).

בדקתי גם את הנספח המשלים של המאמר של NEJM כדי לראות אם יש הסבר לממצאים החסרים. נתקלתי בסעיף קצר ומבטיח מאוד עם כותרת המשנה “הרציונל לבחירת מדדי התוצאה הראשוניים של בריאות הנפש”, אבל למרבה הצער, הוא נוגע לנושא מינורי יחסית ולא קשור – הוא לא ממש מסביר לאן נעלמו המשתנים העיקריים שלהם. משתנים אלה אינם מוזכרים גם בשאר הנספח הזה. (זה היה מקום טוב בשביל המחברים להסביר את המחסור במשתנים מסוימים מבלי לתפוס מקום במאמר עצמו).

במאמר המחקר ב- NEJM השערת החוקרים גם משתנה. למען ההגינות אציין שכאשר הם מתייחסים להשערה שלהם כאן זה בצורה פחות רשמית ויותר דיבורית, לא קיים כאן קטע השערות רשמי כמו שיש במסמך הפרוטוקול, אבל בכל זאת, תסתכלו על השינוי הזה:

ההשערה בגרסה האחרונה של הפרוטוקול, שפורסמה בשנת 2021: “מטופלים המקבלים טיפול הורמונלי מאשרר מגדר, יפגינו ירידה בתסמינים של חרדה ודיכאון, דיספוריה מגדרית, פציעה עצמית, תסמיני טראומה ואובדנות, ויחוו שיפור בדימוי הגוף ואיכות החיים לאורך זמן”.

ההשערה במאמר המחקר ב- NEJM שפורסם בשנת 2023: “ההשערה שלנו הייתה ש[לאחר מתן הורמונים לילדים], התאמה למראה החיצוני, השפעה חיובית, שביעות הרצון מהחיים תגבר ותסמיני הדיכאון והחרדה יפחתו. כמו כן, שיערנו שיהיו שיפורים משניים לטיפול בדיספוריה המגדרית, כך שהשיפור בהתאמת המראה החיצוני יהיה קשור במקביל לשיפורים בתוצאות הפסיכו-סוציאליות”.

יש ביניהן דמיון מסוים בכך שדיכאון וחרדה מוזכרים בשני המקרים, אבל ההבדלים בולטים למדי. ישנם מספר משתנים שצויינו בהשערה המקורית והיו חשובים ביותר, למשל מדד הדיספוריה המגדרית, האובדנות והפגיעה העצמית – משתנים הנחשבים ברמה האוניברסלית כחשובים ביותר על ידי חוקרי מגדר בנוער. ישנם כמה משתנים אחרים, כמו “התאמה חיצונית, השפעה חיובית ושביעות רצון מהחיים”, שכן נכללו במסמך הפרוטוקול המקורי אך לא התייחסו אליהם כחשובים במיוחד והם לא זכו לאזכורים בהשערה או במסמך הסעיפים האובייקטיבי הראשוני. (המשתנה ‘איכות חיים’ והמשתנה ‘שביעות רצון מהחיים’ הם לא אותו המשתנה, אלא רשומים תחת שני משתנים שונים בפרוטוקול המחקר, ויש לפחות מחקר אחד המנסה להעריך את עוצמת המתאם בין השניים.)

במאמר של ה- NEJM, נראה שהחוקרים מתעניינים הרבה יותר במושג “התאמה חיצונית” מאשר בעבר, לעומת המונחים החשובים ‘התאבדות’ (וגרסאותיה) ו’דיספוריה’, המוזכרים שמונה ותשע פעמים, בהתאמה, במאמר.

המונח “התאמה חיצונית” מוזכר 52 פעמים.

ההתאמה החיצונית עולה אפילו כבר בפסקה הראשונה: “מטרה חשובה של טיפול כזה היא להפחית דיספוריה מגדרית על ידי הגברת ההתאמה למראה החיצוני – כלומר, המידה שבה בני נוער חווים התאמה בין המגדר שלהם לבין המראה הפיזי שלהם.”

אולי זה כך, אבל שוב, ראוי לציין את השינויים בדגשים שלהם. הביטוי ‘התאמה חיצונית’ לא מוזכר ולו פעם אחת במסמך הפרוטוקול, ובפעם היחידה שהמילה ‘מראה חיצוני’ מופיעה בהקשר זה, זה בתיאור של מדד תאימות הטרנסג’נדרים (Transgender congruence scale – TCS), אחד המשתנים עליהם אספו החוקרים נתונים: “מבנה של התאמה הממחיש את המידה בה טרנסג’נדרים מרגישים אותנטיות ונינוחות עם זהותם המגדרית והמראה החיצוני שלהם.”

אפילו כאן יש לכאורה בחירה בפינצטה. המחברים מזכירים את מדד ה-TCS הן במסמך הפרוטוקול והן במאמר ב- NEJM, אבל הם לא מדווחים על התוצאות המלאות בשום מקום במאמר הזה. במקום זאת, הם מדווחים רק על אחד משני תתי המדדים – התאמה חיצונית. (ושוב, אנחנו יודעים שיש להם את הנתונים המלאים כי הם סיפקו חלק מהם במסמך מדדי הבסיס שלהם.) 

המשמעות היא שלחוקרים היו שלוש נקודות שהיו חשובות: ניתוח השינויים לאורך זמן באופן מלא, ולאחר מכן ניתוח כל אחד מהם בהתאם לשני המדדים המשניים. 

מתוך שלושת התוצאות הללו הם מדווחים רק על אחת, אותה הם מתארים במאמר כממצא החזק ביותר שלהם: במהלך השנתיים שלהם על הורמונים, מצב הילד הממוצע במחקר השתפר בערך במדד אחד מתוך חמשת המדדים הללו. 

על בסיס הממצא הזה, בונים החוקרים חלק משמעותי במאמר ואף מרחיקים לכת וטוענים שהם שיערו שמדד ההתאמה החיצונית יהיה חשוב, מה שבעיניי יוצר את הרושם כאילו הם שיערו את זה מההתחלה בזמן שאין שום ראיות לכך. במקום זאת, הם שיערו משהו די שונה במסמך הפרוטוקול שלהם, ואז הם שינו את ההשערה מבלי להסביר מדוע. (אני גם חושב שהממצאים לגבי ההתאמה החיצונית הם הרבה פחות מרשימים מאיך שהחוקרים מתארים, אבל אשאיר את זה לחלק 2.)

משהו קצת דומה קורה בגישתם של החוקרים כלפי ארגז הכלים של ה- NIH, “אוסף מגוון של מדדים מהירים המעריכים תפקוד קוגניטיבי, רגשי, מוטורי וחושי מגיל 3 עד 85.” מדובר בעצם בהיצע גדול של פריטי מדד שונים (מידע נוסף וסולם ניקוד תמצאו כאן). 

אם אתחיל לציין את הפריטים השונים שהחוקרים כללו מתוך סל המדדים הזה:

אתם תוכלו לראות שהחוקרים בקשו מהמשתתפים במחקר למלא את פריטי המדדים של ה- NIH בנושא תמיכה רגשית, חברויות, בדידות, חוויה של עוינות מהסביבה, חוויה של דחייה מהסביבה, כעס, פחד, עצב, שביעות רצון כללית מהחיים, השפעות חיוביות ויעילות עצמית.

אף אחד מהפריטים הללו לא הודגש על ידי החוקרים בהשערה המקורית או בסעיף המטרה העיקרית שלהם, אז כנראה שלא צריכה להיות לנו שום הנחה מוקדמת לגבי אילו מהם אנחנו צריכים לצפות שהם ידווחו במחקר הגדול, אבל עדיין: לא ניתן למצוא שום מידע בנוגע ל 9 מתוך 11 המדדים, מה שמותיר אותנו רק עם מדד ההשפעה החיובית ושביעות רצון מהחיים.  מדוע? 

מדוע היה חשוב יותר לדווח על “שביעות רצון מהחיים”, שלא מופיעה בסעיפים של ההשערה או התוצאות העיקריות, מאשר לדווח על “איכות חיים”, שכן הופיעה. לצורך העניין, למה לדווח על האפקט החיובי אבל לא על מדדי ההשפעה השלילית? אם הורמונים עוזרים לילדים להרגיש טוב יותר, האם הם לא אמורים לחוות פחות כעס, פחות פחד ופחות עצב לאורך זמן?

יש לנו הרבה מידע שימושי על הפרוטוקול של החוקרים הודות למה שהם פרסמו באינטרנט. הם בהחלט היו צריכים להגיש את מסמך הפרוטוקול שלהם לאישור של ה- IRB ולהכניס אותו לתיק איפשהו, אבל אני קצת בור לגבי כל הדברים הבירוקרטיים האלה, אז אני לא יודע אם הם היו חייבים לפרסם את זה בפומבי כדרישה מטעם מענק המחקר או כדרישה של ה-NEJM, או אם הם עשו זאת מתוך רוח של פתיחות. כך או כך, קיומו של מסמך הפרוטוקול מדגים היטב מה התועלת בסוג זה של שקיפות מדעית: במקרה זה, הוא מאפשר לנו לבחון מידע מעבר לתוצאות שפורסמו רשמית, להשוות את התוצאות הללו לתהליך הרחב יותר שיצר אותן, ולשאול שאלות. מה שפחות מועיל הוא היעדר כל סוג של מידע על הסיבות העומדות מאחורי הבחירות של הכותבים בנוגע למאמר שלהם ב- NEJM.

אני כמובן לא טוען שאם להורמונים יש השפעה יעילה על נוער טרנס, כל משתנה במחקר הזה צריך לשקף שינוי גדול ומשמח. הנקודה שלי היא שמכיוון שאין הסבר, מה שאנו יכולים לעשות זה רק לשער כיצד החוקרים קיבלו את כל ההחלטות הללו שאפשרו להם לכתוב במאמר האחרון שפורסם ש: “בין המשתתפים היו שינויים משמעותיים לאורך זמן בנוגע לכל התוצאות הפסיכו-סוציאליות בכיוון המשוער.” זה על גבול ההטעיה. 

במילה “כל” התוצאות הפסיכו-סוציאליות, הם לא מתכוונים לכל המדדים שהם בחנו בהם שינויים לאורך זמן – הם מתכוונים לאלה שעליהם הם בחרו לדווח. מה שעשוי להפוך את הממצאים שלהם לטריוויאליים לחלוטין. 

אתן דוגמה קיצונית יותר. אני לא יכול להטיל מטבע שוב ושוב ושוב, עד שלבסוף, שעות לאחר מכן, אני אקבל 10 “עצים” ברציפות, ואז לכתוב “התוצאה של 10 עצים ברציפות מעידה על כך שהמטבע לא הוגן.”

אז למה כל כך הרבה מהמשתנים נעלמו?

יש כמה אפשרויות. האחת היא שהחוקרים מתכננים לדווח על התוצאות הללו במחקר הקרוב, אם כי אני לא בטוח מדוע להם למנוע מידע מה-NEJM, וזה עדיין לא יסביר כיצד הם בחרו באילו משתנים לדווח. 

אפשרות נוספת היא שכתב העת עצמו ביקש מהחוקרים להתמקד במשתנים ספציפיים. הדרך לפרסום מאמר בכתב עת יוקרתי כמו NEJM יכולה להיות בעייתית. אתם עשויים להגיש טיוטה ראשונה שאתם מאוד מתרגשים ממנה בגלל שהיא מראה א’, ב’ ו-ג’, רק כדי לקבל סקירת עמיתים ששוחטת את הבייבי שלכם. ורק חודשים רבים או אפילו שנים (שלא לדבר על שערות אפורות) לאחר מכן, אתם נאנחים בהשלמה ומסכימים לפרסם את המאמר עם ממצאים הרבה פחות מרגשים הנוגעים למשתנים הרבה פחות אטרקטיביים. 

אני מניח שזה יכול היה לקרות כאן, אבל זה פשוט יעלה את השאלה “למה בחרתם את המשתנים המסויימים האלה?” 

מעבר לאופציה הקשורה לכתב העת NEJM – השאלות המתודולוגיות הרציניות יישארו ללא מענה. 

כמו כן, כפי שתראו בחלק הבא למאמר זה, ה-NEJM לא בדיוק התנהלו באופן מהודק מבחינה מתודולוגית בנוגע למאמר הזה, אז אני לא בטוח עד כמה אני קונה את הגרסה ההיפותטית הזו של האירועים.

אם הייתי צריך לנחש, אני חושב שההסבר הכי סביר כאן הוא שהחוקרים עשו הרבה “ניתוח אנליטי” עד שהגיעו לתוצאות מרשימות, ואז בחרו לשנות כיוון ולהתאים את ההשערה שלהם אל התוצאות האלה ולהשליך כמה מהתוצאות המאכזבות לאיזושהי תיקייה. אם אני צודק, זה לא היה בהכרח תהליך מכוון מצידם. כאשר יש לך הרבה אנשים שמתעסקים עם הרבה נתונים, ללא גבול בטיחות במקומות מסוימים, קל לאבד את המעקב אחר כל הבדיקות הסטטיסטיות הלא מוצלחות שהרצת ותוך כדי כך לזכור את התוצאות החיוביות שאכן תומכות בהשערה המועדפת עליך. אבל בלי קשר לשאלה אם אני צודק והאם כל בחירה פוטנציאלית כאן הייתה מכוונת, החוקרים היו צריכים לפחות להבין מה היה חסר במאמר שלהם ב-NEJM ולהסביר מה קרה.

אבל כל מה שאני יכול לעשות זה לשער, מכיוון שהם לא עונים על שום שאלה לגבי התהליך שלהם או לגבי האפשרות לשתף את הנתונים שלהם כדי שאחרים יוכלו לחקור את הנושאים האלה. שלחתי שאלות ספציפיות לכתב העת NEJM, לאנשי עיתונות בשתי האוניברסיטאות ולארבעה מחברי הצוות (צ’ן, הידלגו, רוזנטל וטישלמן), ומלבד תגובה מה-NEJM שאומרת שעלי לפנות ישירות למוסדות החוקרים, קיבלתי תגובה רק מעיתונאי של בית החולים ‘לוריא’ לילדים שאישר שהחוקרים לא מתראיינים. 

העמדה בנוגע לכך שהם לא מתראיינים נותרה עקבית, ללא קשר לעיתונאי אותו שאלתי. במייל האחרון שלי שאלתי עיתונאית האם הצוות יכול לשתף את הנתונים שלהם – היא אמרה שהיא תבדוק אבל לא שמעתי ממנה בחזרה. (למעשה אני לא בטוח איך עובד שיתוף הנתונים כאן – מסמך הפרוטוקול שלהם מציין שהצוות בסופו של דבר ישתף אותו עם חוקרים אחרים של ה-NIH2. יכול להיות שכאשר מדובר בעיתונאים אקראיים או אקדמאים עצמאיים ישנן הגבלות, ואז חוסר המוכנות לשתף נתונים לא בהכרח מהווה עילה לחשד.)

הסירוב הזה לדבר עם עיתונאים היא החלטה מצערת של החוקרים, במיוחד עם הציטוטים הזוהרים שלהם לגבי חשיבות הממצאים – ציטוטים שמטשטשים הרבה ניואנסים ותוצאות חסרות. בסופו של יום, הצוות הזה חזה בפומבי ששמונה משתנים ינועו בכיוון מסוים, ואז, כשהגיע הזמן לדווח על הנתונים שלהם הם סיפרו לנו מה קרה רק לשניים מתוך המשתנים האלה, והשניים האלה אפילו לא היו כל כך קולעים, בהתחשב בכך שטרנסים ממין נקבה לא חוו הפחתה בדיכאון ובחרדה. אם הממצאים האלה כל כך מרשימים, איפה כל אותם המשתנים האחרים?


המאמר המכונן על “הארקינג” – השערה לאחר שהתוצאות ידועות – הוא המאמר הזה משנת 1998 שפורסם על ידי נורברט ל. קר בכתב העת – Personality and Social Psychology Review. בזמנו, זו לא הייתה תופעה ידועה, ובכל זאת היו אנשים שצידדו בזה. הרעיון היה שאם באמצעות חיטוט בנתונים שלך אתה חושף הסבר חדש – אז למה שלא תעדכן את ההשערה שלך בהתאם? חוקרים רבים, מוכשרים וטובי לב, לא ממש הבינו את החסרונות הסטטיסטיים והנוספים של זה אז, לכן טען נורברט ל.קר שהחסרונות של “הארקינג” עולים על היתרונות. לפי אמות המידה הנוכחיות זו טענה מיותרת – בימינו רוב החוקרים מבינים מדוע הפרקטיקות הללו מובילות למדע קלוקל.

קר כותב:

“כנראה שכולם יסכימו שאם כל שאר הדברים נעשו היטב, אז כתיבה מדעית “טובה” (כלומר ברורה, קוהרנטית, מושכת, מרגשת) עדיפה על כתיבה מדעית “רעה” (כלומר, לא קוהרנטית, לא ברורה, עמוסה, לא מושכת). עם זאת, כולם כנראה גם יכירו בכך שלמחבר של דו”ח מדעי, יש מגבלות על מה שהוא או היא יכולים לכתוב במסווה של סיפור טוב. דוחות מדעיים הם אינם בדיה ומדען פועל תחת אילוצים שונים מאלו של הכותב הבדיוני. לא משנה כמה התוספת עשויה לשפר את הסיפור, המדען לא יכול להמציא או לעוות תוצאות אמפיריות. בסופו של דבר, השאלה היא האם אילוצים כאלה צריכים לחול על ההיבטים הבדיוניים של ה”הארקינג” (למשל, ייצוג לא מדויק של השערות מסוימות כאותן השערות שהנחו את תכנון המחקר).”

האם מחברי המאמר של NEJM “ייצגו באופן לא מדויק השערות מסוימות כהשערות שהנחו את תכנון המחקר”? אולי זו טענה חזקה מדי, אבל לא בטוח. החוקרים ברורים לחלוטין לגבי המשתנים שהם הכי מתעניינים בהם במסמך הפרוטוקול שעומד כביכול בבסיס המחקר הזה – הם משערים ש”חולים המטופלים בהורמונים חוצי מין יציגו ירידה בתסמינים של חרדה ודיכאון, דיספוריה מגדרית, פציעה עצמית, תסמיני טראומה, אובדנות ויחוו שיפור בדימוי גוף ואיכות חיים לאורך זמן”. ואז, במחקר שזו אחת הסיבות העיקריות שהם אספו את כל הנתונים האלה מלכתחילה – מחקר הכולל את השורה “הכותבים ערבים לדיוק ושלמות הנתונים ולנאמנות המחקר לפרוטוקול” – ההשערה שלהם שונה באופן מהותי והם מציגים עניין ב”התאמה חיצונית” כהשערה שהייתה להם מהתחלה, כשאין ראיות לכך. השינוי הזה והיעלמותם של כל המשתנים הללו – מתרחשים כמעט ללא אף הסבר.

כפי שרמזתי קודם לכן, המחברים אכן מציעים הסבר חלקי להיעדר משתני דיספוריה מגדרית. במקור, הם אספו נתוני דיספוריה מגדרית באמצעות שני מדדים: סולם אוטרכט לדיספוריה מגדרית (UGDS) ושאלון זהות מגדר/דיספוריה מגדרית למתבגרים ומבוגרים (GIDYQ-AA). במאמר מ-2019 במגזין Transgender Health הם כותבים על כמה מהפגמים לכאורה באמצעים אלה ומסבירים שהם הפסיקו לאסוף נתונים עליהם:

ההכרח במדד משופר כדי לזהות את הניואנסים באלמנטים של דיספוריה מגדרית והפוטנציאל שלה להתגברות או הפחתה לאורך זמן, הודגש על ידי חברי הצוות הטרנסג’נדרים שלנו שעבדו בקו החזית עם בני נוער שהשתתפו במחקר. לאחר התלבטות משמעותית, בחרנו לכלול במחקר זה את סולם אוטרכט לדיספוריה מגדרית, בתקווה שנוכל להוכיח את מגבלותיו בזיהוי החוויה הדינמית של בני נוער עם דיספוריה מגדרית. מסיבות דומות, כללנו גם את שאלון על זהות מגדר/דיספוריה מגדרית למתבגרים ומבוגרים (GIGDQAA) [GIDYQ-AA].

במהלך השנתיים האחרונות, המשתתפים הביעו חששות בנוגע למצוקה שהם חווים כאשר הם מתמודדים עם חלק מהפקטורים משני המדדים הללו. התקבלה החלטה להסיר את ה-UGDS ו-GIGDQAA [GIDYQ-AA] מהערכות המשתתפים, למעט אותם משתתפים שהשלימו תת-מחקר כדי לקבל משוב מהמשתתפים לגבי פקטורים הכלולים בשני סולמות אלה. הצוות שלנו הרגיש שסולם ההתייחסות הטרנסג’נדרית וסולם המתח והחוסן של מיעוטים מגדריים הם ככל הנראה האמצעים הקיימים הטובים ביותר לאיסוף מידע על גורמי דיספוריה מגדרית כאחד והן על גורמים פרוקסימליים. [הערות שוליים הושמטו]

בעיניי זה קצת מוזר. הם השתמשו בשני המדדים הללו לדיספוריה המגדרית אך לא כדי למדוד את הדיספוריה המגדרית, כפי שמסביר מסמך הפרוטוקול שלהם, אלא בגלל שהם חשבו שאלה מדדים לא איכותיים ורצו להראות זאת? אם נשים אותם רגע בצד, זה אכן דבר שנבדק – מסמך הפרוטוקול כולל “מכתב תיקון” משנת 2019 המסיר את שני הכלים הללו (הם עדיין ניתנים למטופלים בביקור מעקב של 24 חודשים.)

אם סולם ההתייחסות הטרנסג’נדרית וסולם המתח והחוסן של מיעוטים מגדריים הם למעשה “המדדים הקיימים הטובים ביותר” להערכת דיספוריה מגדרית, מדוע שניהם חסרים במאמר NEJM ורק תת-הסולם TCS מופיע? לפי הפרוטוקול, הילדים בקבוצה זו נשאלו גם על תסמיני הדיספוריה המגדרית שלהם (בהתאם להגדרה לדיספוריה מגדרית של ה-DSM-5), עד שמכתב תיקון נפרד משנת 2021 עצר את השאלון הזה, אבל גם הנתונים האלה נעדרים מהמאמר בכתב העת NEJM. למה?

בקיצור, בין אם נטישת המדדים של ‘סולם אוטרכט לדיספוריה מגדרית’ ושל ‘שאלון זהות מגדר/דיספוריה מגדרית למתבגרים ומבוגרים’ הייתה מוצדקת או לא, החוקרים אספו נתונים על שלושה מדדים אחרים שלדעתם משרתים מטרה דומה אבל אז לא פרסמו אותם. זה מאכזב שהמחקר הזה לא מציע נתונים על דיספוריה מגדרית, בהתחשב בכך שהניסיון להפחית אותה היא הדרך בה לכאורה מצדיקים רפואית מתן חוסמי גיל התבגרות ו/או הורמונים לילדים מלכתחילה, למרות היעדר ראיות מוצקות לגבי טיפולים אלה3.

יהיה מעניין לדעת אם מבקרים או עורכים של NEJM שאלו את המחברים מדוע אין במאמר שלהם נתוני אורך על דיספוריה מגדרית, אובדנות ופגיעה עצמית בהתחשב בחשיבותם של משתנים אלה ובעניין הקודם של צוות המחקר בנוגע למעקב אחר משתנים אלה ותוצאותיהם.

שום דבר ממה שאני שאני אומר כאן על דרגות חופש של חוקרים או “הארקינג” אינו חדש או שנוי במחלוקת. שוב, חוקרים יודעים כבר שנים שלא באמת אפשרי לעשות את זה (הארקינג-שינוי השערה אחרי שיודעים את התוצאות) אם לא לוקחים בחשבון את אוסף ההשוואות הסטטיסטיות האחרות שלא דווחו. דבר זה עלול להטיל ספק בכל האנליזה שלכם, כי תוצאות שעשויות להראות מובהקות סטטיסטית, עלולות למעשה להידחף פנימה ברגע שמבצעים את התיקונים המתאימים.

להלן טבלה שימושית מהנספח למאמר המציגה את התוצאות הממוצעות של חמשת המשתנים עליהם דיווחו החוקרים בתחילת הדרך ואחרי 24 חודשים (הגל האחרון של איסוף הנתונים עבור מחקר זה):

אם נניח בצד נושאים שונים שאליהם אגיע בחלק ב’, כמו העובדה שהחוקרים מציגים עלייה בסולם של 0.82 נקודות מתוך סולם השפעה חיובית של 100 נקודות לאורך שנתיים – כהוכחה לכך שהורמונים עובדים. כל כך הרבה חסר כאן.

למעשה, התרשים אמור להיראות בערך כך:

וזה רק המשתנים שהחוקרים ציינו בהשערתם; הם מצאו לנכון לברור ולבחור מבין כל המשתנים האחרים, כך שבאמת שהיה אפשר ליצור גרסה הרבה הרבה יותר ארוכה של התרשים הזה עם הרבה יותר סימני שאלה.

אם נמלא את סימני השאלה האלה, האם החוקרים עדיין יהיו מסוגלים להגדיר את המחקר שלהם כממצא מרשים? כל העניין בזה שאמורים לתקשר באופן ברור ושקוף לגבי הבחירות המתודולוגיות במחקרים היא כדי למנוע ממבקרים להיות מסוגלים לשאול שאלות כאלה מלכתחילה. העובדה שכל זה עדיין באוויר מהווה חסרון מצד המחברים, כתב העת או שניהם.

בואו נעשה הדמיה של התוצאות עליהן הם כן דיווחו, מתוך כל התוצאות שהם יכלו לדווח:

הנקודה היא שלא חשוב איך ננסח את זה או ננסה להבין את זה – החוקרים מסבירים כה מעט על התהליך שלהם, על הדרך מפרוטוקול המחקר המקורי שלהם ועד למוצר המוגמר של מאמר באחד מכתבי העת המחקריים המובילים בעולם – שעד שהם ישלימו חלק מהפערים הללו, אני לא יכול שלא להיות סקפטי. ואני חושב שגם אתם צריכים להיות.


  1. כמה הערות על המשתנים האלה: לא ברור מהפרוטוקול באיזה מכשיר השתמשו החוקרים כדי למדוד תסמיני טראומה, ואני לא רואה שום סימן שזה היה על ידי המשתנים הכלולים במחקר NEJM . כך או כך, המונח טראומה לא עלה במאמר ולכן הוא לא מדווח. כמו כן, “פציעה עצמית” ו”אובדנות” הם אכן משתנים נפרדים. בפרוטוקול שלהם, החוקרים מציינים “פגיעה עצמית – שאלות לגבי אם והיכן המשתתף פגע בעצמו בכוונה” בנפרד מסולם המחשבות האובדניות. ככה הגעתי לספירה שלי של שמונה משתנים.
  2. מתוך מסמך הפרוטוקול: “הנתונים יהיו זמינים לחוקרי NIH אחרים במסגרת הסכם שיתוף הנתונים עם [המכון הלאומי לבריאות הילד והתפתחות האדם של יוניס קנדי ​​שריבר] לאחר פרק זמן סביר הכולל את האפשרות להתכונן ולהגיש עבור פרסום ארבעה כתבי יד המציגים את התוצאות הבסיסיות של הפרויקט. החל מהשנה השלישית ייווצרו פרסומים בביקורת עמיתים הנוגעים להשערות רוחב ושאלות מחקר שנמצאו ביעדים ראשוניים ומשניים, אם כי עיקר הפרסומים הם אורכיים באופיים ויתרחשו בשנה החמישית. פרסום הממצאים למדינה, לפקידי מחוז ולקובעי מדיניות וארגונים יחל בשנה השלישית, כאשר נתונים ראשוניים יהיו זמינים.” גם במחקר עצמו מציינים המחברים: “לא היו הסכמות לגבי סודיות הנתונים בין נותנת החסות (המכון הלאומי לבריאות הילד והתפתחות האדם של יוניס קנדי ​​שריבר), המחברים והמוסדות המשתתפים”.
  3. אני מניח שאנשים עשויים לומר שהביקורת הזו לא הוגנת כי הם פרסמו לפחות את התוצאות של תת-המדד ‘התאמה חיצונית’, אבל זה לא מדד מאומת של דיספוריה מגדרית, שהיא תופעה החורגת הרבה מעבר לאי נוחות עם המראה החיצוני.

One comment

  1. פינגבק:המחקר החדש על הורמונים לבני נוער טרנסג’נדרים לא באמת אומר הרבה. – ג'נדר קריטיקל ישראל

התגובות סגורות.