باسل النيرب

هل تكذب الأرقام؟ البيانات المضللة في العصر الرقمي

السبت - 22 يناير 2022

Sat - 22 Jan 2022

لطالما كانت التحليلات الإحصائية ركيزة مهمة وأساسية، وفي عالم التقنية أصبحت أكثر أهمية وتعزز القدرة على اتخاذ القرارات، والقيام بالإجراءات، ويمكن للطرق الإحصائية أن تساعد في التخطيط والتسويق والتعريف بالخدمات، ومع ذلك يُمكن يقينا التلاعب بالإحصاءات ودقة التحليل من خلال مجموعة من الوسائل والتقنيات البحثية.

ما هي الإحصائية المضللة؟

تُعرف الإحصائيات المضللة أنها إساءة استخدام البيانات الرقمية سواء بقصد أو بدون قصد لخلق نتائج أو معلومات خادعة وروايات كاذبة حول موضوع الأرقام، وغالبا ما يحدث سوء استخدام في الإحصائيات والإعلانات والأخبار والدراسات المتعلقة بوسائل الإعلام وغيرها.

هل تكذب الأرقام؟

في ذهن من لا يعمل في عالم الأرقام والإحصائيات إحساس بديهي أن الأرقام لا تكذب، أو هناك دائما حسن نية مفرطة من الجمهور مستقبل الدراسات؛ معتقدا أن الدراسة طالما قدمت رقما فهي بلا شك صادقة.

وحتى أكون منصفا يمكن «تجميل أي رقم ضمن الدراسات؛ والكثير منها يتم وفق رؤية المُمول». أما كيف فيوجد الكثير من الطرق والأدوات التي يتم العمل بها، فمثلا سرد أنصاف الحقائق، ولكن الأكثر شيوعا الارتباط مقابل السببية وأبسط مثال تجده يوميا وخاصة في الدراسات الطبية شرب الشاي يزيد مرض السكري 50% أو ربط الصلع بأمراض القلب والأوعية الدموية بنسبة 35%.

ضمن استطلاع استقصائي أجراه الدكتور دانييل فانيلي من جامعة إدنبرة 2009 تبين أن 33.7% من العلماء الذين شملهم الاستطلاع اعترفوا بممارسات بحثية مشكوك فيها، بما في ذلك تعديل الأرقام لتحسين النتائج، وتفسير البيانات الشخصية، حجب التفاصيل التحليلية، إسقاط الملاحظات بسبب المشاعر الغريزية.

من النماذج الإحصائية والمضللة في وسائل الإعلام؛ استجوب جمهوريون من الكونجرس الأمريكي سيسيل ريتشاردز رئيس منظمة الأبوة المخططة في 29 سبتمبر 2015 بشأن اختلاس 500 مليون دولار من التمويل الفيدرالي السنوي لتمويل دراسة حول الإجهاض والسرطان، فقد ادعى الانخفاض في فحوصات الثدي، مقابل الزيادة في عمليات الإجهاض، ولكن الحقيقة شهد عدد حالات الإجهاض منذ عام 2006 نموا كبيرا في حين انخفضت عدد فحوصات السرطان بشكل كبير، أي نقل التركيز على التحول من فحوصات الكشف عن السرطان إلى الإجهاض.

قام موقع Politifact وهو موقع للتحقق من الحقائق بمراجعة أرقام النائب جيسون شافيتز عبر مقارنة مع التقارير السنوية لمنظمة تنظيم الأسرة باستخدام مقياس محدد؛ تبين أن عدد فحوصات السرطان انخفض في الواقع ولكنه لا يزال يفوق عدد إجراءات الإجهاض التي يتم إجراؤها سنويا، ونقطة وسط فوضى الأرقام؛ الحزب الجمهوري يعارض وبشدة عمليات الإجهاض.

نموذج آخر ضمن العام 2020، اضطر عامة الجمهور إلى استهلاك المعلومات العلمية حول (كوفيد 19) في شكل تصورات للبيانات للبقاء على اطلاع على التطورات الحالية للفيروس، وأمام الافتقار إلى المعرفة الإحصائية من الجمهور يتم انتشار تحريف البيانات على نطاق واسع.

نشرت وزارة الصحة العامة في جورجيا الأمريكية مخططا يهدف إلى إظهار المقاطعات الخمس الأعلى التي سجلت أعلى حالات (كوفيد 19)، من الأخطاء الواضحة عدم احتواء المحور على تسمية، والأشد تضليلا عدم ترتيب التواريخ زمنيا، والهدف جعل الجمهور يعتقد أن الحالات تتناقص تدريجيا، كما لا يتم ترتيب المقاطعات دائما بنفس الترتيب.

ومن نماذج الإحصائيات المضللة في الإعلان أكثر من 80% من أطباء الأسنان في المملكة المتحدة يوصون باستخدام معجون كولجيت للأسنان، وفي عام 2007، أمرت هيئة معايير الإعلان (ASA) في المملكة المتحدة شركة كولجيت بالتخلي عن مطالبتها، واعتبارها انتهاكا لقواعد الإعلان لما فيه من الاقتراع الخاطئ والتحيز الصريح.

كيف تكون الإحصائيات مضللة؟

فيما يلي الأشكال المحتملة التي تؤدي عادة إلى وجود الإحصائيات المضللة:

01 الاقتراع الخاطئ: وهي تمثل الطريقة التي يتم بها صياغة الأسئلة لما لها من تأثير على الطريقة التي يجيب بها الجمهور فمثلا ضمن السؤال:

- هل تعتقد أنه يجب أن تخضع للضريبة حتى لا يضطر المواطنون الآخرون إلى العمل؟

- هل تعتقد أن الحكومة يجب أن تساعد أولئك الذين لا يجدون عملا؟

يثير هذان السؤالان إجابات مختلفة تماما على الرغم من أنهما يتعاملان مع نفس موضوع «المساعدة الحكومية»، وهناك طريقة أكثر دقة لصياغة السؤال وهي: هل تدعم برامج المساعدة الحكومية للبطالة؟ أو نظرا لارتفاع التكاليف التي تتحملها الطبقة الوسطى، هل تدعم برامج المساعدة الحكومية؟

02 الارتباطات الخاطئة: بالنسبة لمشكلة الارتباطات إذا قمت بقياس متغيرات كافية فسيظهر في النهاية أن بعضها مرتبط. ويمكن التلاعب بالدراسات ببيانات كافية لإثبات ارتباط غير موجود أو ليس مهما بدرجة كافية لإثبات السببية، والأصل أن تكون السببية أكثر قابلية للتصديق مثل مرض الزهايمر والشيخوخة، والواضح أن هناك علاقة بين الاثنين ولكن هل هناك علاقة سببية؟ قد يفترض الكثيرون وجود سبب وهذا خطأ استنادا إلى قوة الارتباط فقط.

03 تصيد البيانات: تُعرف باسم «تجريف البيانات» أي التنقيب عن البيانات، حيث يتم تحليل كميات كبيرة للغاية من البيانات لأغراض اكتشاف العلاقات بين نقاط البيانات، ولا يعد البحث عن علاقة بين البيانات إساءة استخدام للبيانات في حد ذاته؛ إلا أن القيام بذلك بدون فرضية هو تجريف البيانات وغالبا ما يستخدم لغرض غير أخلاقي للتحايل على البيانات التقليدية ومن أجل البحث عن استنتاجات بيانات إضافية غير موجودة.

في كثير من الأحيان ينتج عن تصيد البيانات دراسات يتم نشرها بشكل كبير بسبب نتائجها المهمة التي تتعارض مع نتائج أخرى غريبة وتترك هذه الارتباطات الخاطئة الجمهور في حيرة من أمرهم ويبحثون عن إجابات فيما يتعلق بأهمية العلاقة السببية والارتباط. ومن الممارسات الشائعة وهي الحذف فبعد صدور النتائج فإنك تختار فقط الإجابات التي تدعم وجهات نظرك ونتائجك وتتجاهل تلك التي تتعارض معها.

04 تصور البيانات المضللة: وهي أن تشتمل الرسوم البيانية على مجموعة عناصر أساسية توضح الموازين المستخدمة والتي تتمثل في قيمة البداية، طريقة الحساب (البيانات والفترة الزمنية)، وفي غياب هذه العناصر يجب عرض تمثيلات البيانات المرئية بحذر.

05 التحيز الانتقائي: خطورة التحيز هو محاولة متعمدة للتأثير على نتائج البيانات دون التظاهر بالمساءلة المهنية، من المرجح أن يتخذ التحيز شكل حذف البيانات أو تعديلها لإثبات نقطة معينة، ولتجنب هذه المشكلة يجب اختيار عينة عشوائية من الأشخاص الذين قد تكون خلفيتهم مرتبطة أو غير مرتبطة بموضوع الاستطلاع.

06 تغير النسبة المئوية مع حجم عينة صغير: هناك طريقة أخرى لإنشاء إحصائيات مضللة، مرتبطة أيضا باختيار العينة التي تمت مناقشتها أعلاه، وهي حجم العينة المذكورة. عندما يتم إجراء تجربة أو مسح على حجم عينة غير مهم تماما، فلن تكون النتائج غير قابلة للاستخدام فحسب، بل ستكون طريقة عرضها -أي كنسب مئوية- مضللة تماما.

طرح سؤال على عينة حجمها 20 شخصا، حيث 19 إجابة بـ «نعم» (= 95% أجابوا بنعم) مقابل طرح نفس السؤال على 1000 شخص و950 إجابة بـ «نعم» (= 95% أيضا): النسبة ليست نفسها فتقديم النسبة المئوية للتغيير دون حجم العينة مضلل تماما.

07 قطع محور: يعد اقتطاع المحور طريقة أخرى يمكن أن تكون الإحصائيات بها مضللة. عند إنشاء رسم بياني لتصوير إحصائية، من الطبيعي أن نفترض أن محوري X و Y «صفر»، فبدء المحور بقيمة محددة مسبقا يؤثر على الطريقة التي يُنظر بها إلى الرسم البياني لتحقيق نتيجة معينة. غالبا ما تُستخدم هذه التقنية في السياسة للمبالغة في نتيجة قد تكون لولا ذلك أقل إثارة للاهتمام.

08 اختيار الفترة الزمنية بشكل استراتيجي: إساءة الاستخدام الشائعة للإحصاءات في اختيار الفترة الزمنية بشكل استراتيجي لإظهار النتيجة. هذه حالة إحصائيات مضللة يمكن إجراؤها عمدا لتحقيق نتيجة محددة أو عرضا. على سبيل المثال، اختيار شهر جيد الأداء فقط لإنشاء تقرير مبيعات سيظهر صورة مضللة حول أداء المبيعات الإجمالي.

كيف نتجنب سوء استخدام الإحصائيات؟

غالبا ما يحدث التضخيم من قبل الصحف والصحفيين الذين يأخذون ما يناسبهم من البيانات ويحولونها إلى عناوين رئيسة، وتكون خارج سياقها الأصلي، ويصبح استخدام البيانات بطريقة مضللة أمر سهل للغاية. وحتى تتجنب الوقوع في الاحصائيات المضللة اسأل نفسك بضعة أسئلة وحلل النتائج الأساسية، ومن الأسئلة المساعدة:

- من الممول؟

- ما هي الدوافع من وراء البحث؟

- ما الذي تحاول الدراسة اكتشافه؟

- ما حجم العينات؟

- ما هي أجزاء العينة؟

- ما مدى شمولية العينات؟

ولمعد التقارير الإحصائية:

- هل التمثيلات المرئية للبيانات تمثل البيانات بدقة؟

- هل يتم تمثيل البحث بأمانة وحيادية؟

- ما هي المعلومات المفقودة من هذه البيانات؟

@b_nerab