1 of 9

פרשת זיוף הנתונים של�פרנצ'סקה ג'ינו

איתמר ברק ולוי ניקנם

2 of 9

פרשת פרנצ'סקה ג'ינו וזיוף הנתונים

  • בשנת 2023, בלוג Data Colada פרסם סדרת פוסטים שחשפו ממצאים חמורים על זיוף נתונים בארבעה מאמרים מדעיים של פרופ’ פרנצ’סקה ג’ינו מהרווארד.�החוקרים שמאחורי הבלוג, שהם בעצמם חוקרי פסיכולוגיה התנהגותית, השתמשו בכלים סטטיסטיים ופורנזיים על מנת לבדוק את אמינות הנתונים במאמרים שבהם ג’ינו הייתה שותפה.�
  • ג’ינו היא אחת החוקרות המובילות בתחומה, והחשדות כלפיה עוררו סערה גדולה בעולם האקדמי. לא מדובר רק בטעות מחקרית, אלא בזיוף מכוון של נתונים שנועד להציג תוצאות חיוביות וחדשניות שלא קרו במציאות.�
  • במהלך המצגת, נראה דוגמאות לזיופים עצמם, נבין את המתודולוגיה שחשפה אותם, ונלמד מהם הלקחים החשובים לעולם המחקר.

3 of 9

איך מזהים נתונים מזויפים?

  • נתונים מזויפים לרוב אינם מתנהגים כמו נתונים אמיתיים – הם מסודרים מדי, נקיים מדי, ולעיתים אף כוללים ערכים לא הגיוניים.�בData Colada השתמשו בשיטות פשוטות אך חזקות לזיהוי סימנים מחשידים.�
  • הם בדקו האם הנתונים מסודרים בסדר קבוע – דבר שאינו צפוי באיסוף אמיתי של תגובות ממשתתפים. הם חיפשו ערכים שחוזרים על עצמם באופן חריג, כמו טקסטים זהים בתשובות פתוחות. נוסף על כך, הם בחנו את הפיזור הסטטיסטי של ספרות וסכומים, מתוך הבנה שזייפנים נוטים להעדיף מספרים 'עגולים' או דפוסים מסוימים.�
  • לבסוף, הם השוו בין הנתונים שפורסמו לבין הקבצים המקוריים שנשמרו במערכת Qualtrics, שם ניתן לראות את הגרסאות האותנטיות של התגובות. הפערים בין הקבצים היו הוכחה מובהקת לכך שהנתונים עברו עריכה בדיעבד.

4 of 9

דוגמה 1- מחקר החתימה (2012)

5 of 9

דוגמה 1- מחקר החתימה (2012)

  • מזהה משתתף 49 מופיע פעמיים במערך הנתונים, עם מידע דמוגרפי זהה. בנוסף, ישנם 6 משתתפים בשורות סמוכות עם מזהים שאינם ברצף, שלושה מתנאי 1 (חתימה למעלה), ואז שלושה מתנאי 2 (חתימה למטה).

6 of 9

  •  אם שיבוש נתונים זה בוצע באופן מניע, כדי לייצר את התוצאה הרצויה, אז היינו מצפים שהתצפיות החשודות הללו יציגו השפעה חזקה במיוחד עבור המניפולציה של כניסה למעלה לעומת כניסה למטה. והן אכן. שורות חשודות מראות השפעה עצומה
  • האיור שלהלן מציג את כל התצפיות בשני התנאים המעניינים. 8 התצפיות החשודות שהוזכרו לעיל מראות השפעה עצומה בכיוון החזוי. כולן נמנות עם התצפיות הקיצוניות ביותר בתנאיהן, וכולן בכיוון החזוי.
  • עם n = 8 בלבד הן מייצרות t(6) = 21.92, עם ערך p זעיר. מבחן ה-t עבור המשתנה התלוי השני, ביצועים מדווחים יתר על המידה במשימת החידה, פחות קיצוני, אך עדיין מייצר t(6) = 4.48, p = .004 עם 8 תצפיות בלבד.

7 of 9

דוגמא 2 - "שנת הלימודים שלי היא הרווארד"

  • 491 סטודנטים השתתפו בסקר מכוון בו הם התבקשו לענות על שאלה שנויה במחלוקת בקמפוס ולכתוב על זה חיבור בעד/נגד דעתם. שאלת המפתח בסוף- כמה אתה רוצה להתשמש במוצרי נקיון כעת?
  • המטרה הייתה לבדוק האם העובדה שאתה כותב חיבור נגד דעתך גורם לך להרגיש מלוכלך יותר ולכן אולי תרצה להשתמש במוצרי נקיון.
  • סטודנטים שכתבו נגד דעתם דירגו את מוצרי הנקיון כיותר רצויים.
  • הסטודנטים נשאלו מה השנה שלהם בלימודים? ו20 סטודנטים ענו – הרווארד.
  • כמובן שזו לא תשובה הגיונית לשאלה מה השנה שלך בלימודים.

8 of 9

  • כל 20 התשובות הבעייתיות מופיעות בצמוד בקובץ (שורות 450-484)�
  • כל מי שענה הרווארד, וכתב חיבור נגד הדעה שלו, דירג את מוצרי הנקיון בציון הגבוה ביותר.
  • הסיכוי שזה קרה באופן טבעי הוא כמעט אפס. כנראה שמישהו שינה את הנתונים באופן ידני.
  • רמת מובהקות של המחקר כולו p>.0001 מובהק מאוד
  • רמת מובהקות קבוצת "הרווארד" ( N=20) p>.000001 מובהקות קיצונית
  • רמת מובהקות בלי הרווארד p>.86 אין הבדל מובהק, אפקט זעום

9 of 9

שקיפות מדעית ומסקנות

  •  המקרה של ג’ינו מציב תמרור אזהרה חשוב עבור כל מי שעוסק במחקר מדעי.�זיוף נתונים אולי מצליח לעבור ביקורת ראשונית, אבל כמעט תמיד משאיר 'טביעות אצבע' – אם יודעים איפה לחפש.�
  • מסקנה מרכזית מהמקרה הזה היא הצורך בשיתוף נתונים גולמיים, בשקיפות בתהליכי איסוף וניתוח, ובאפשרות לבצע שחזור בלתי תלוי של תוצאות. רק כך ניתן להגן על אמינות המדע.�
  • בלוגים כמו Data Colada ממלאים תפקיד חשוב בתרבות של ביקורת עצמית במדע, ומזכירים לנו שהשיטה המדעית לא מושלמת – אך עם כלים נכונים, ניתן לחשוף גם את הזיופים המתוחכמים ביותר.