نرمالایز کردن
این بخشی از یک خبر هست که سایت الف عنوان کرده:
"وی همچنین درباره محورهایی که تصادفات در آن رخ داده نیز گفت: ۷۲ درصد
تصادفات در محورهای فرعی و ۲۸ درصد نیز در محورهای اصلی رخ داده است. رییس
مرکز فرماندهی و کنترل ترافیک پلیس راهور ناجا همچنین ساعات ۲۰ تا ۲۴ را
دارای بیشترین آمار تصادفات رانندگی برشمرد و گفت: ۲۵ درصد تصادفات رانندگی
در خردادماه امسال حد فاصل ساعت ۲۰ تا ۲۴ رخ داده است.
سلبی افزود:
پس از آن ساعات ۱۲ تا ۱۶ با ۲۲ درصد و ساعت ۱۶ تا ۲۰ با ۱۹ درصد از سهم
تصادفات رانندگی در رتبههای دوم و سوم قرار دارند.
به گفته رییس
مرکز فرماندهی و کنترل ترافیک پلیس راهور ناجا، حد فاصل ساعت ۰ بامداد تا ۴
بامداد و ۴ بامداد تا ۸ صبح و ۸ صبح تا ۱۲ ظهر نیز به ترتیب ۱۲، ۸ و ۱۴
درصد تصادفات رخ داده است."
متاسفانه این نحو تهیه آمار خام و ارائه اون به جامعه تو کشور ما رواج بسیار زیادی داره. چیزی که باید در مورد تقریبا هر داده آماری انجام بشه بحث نرمالایز کردن هست. اگه کسی این متن رو بخونه به احتمال زیاد دچار این اشتباه میشه که اگه ساعت 4-8 بامداد مسافرت بره بهتر از اینه که ساعت 12-16 مسافرت بره چون تو اولی 8 درصد تصادفات رخ میده و تو دومی 22 درصد.
اما مسئله اینه که این داده ها نرمال نشدن، یعنی تعداد مسافرت های درحال انجام بین ساعت 4-8 خیلی خیلی کمتر از مسافرت های در حال انجام در ساعت های 12-16 هست.بنابراین این اعداد هیچ چیزی در مورد شانس تصادف به ما نمیگن و چه بسا حتی گمرا کننده باشن (برای دانشجویان آنالیز عددی :این تقریبا شبیه همون بحث خط نسبی و مطلقی هست که تو آنالیز عددی داشتیم و من گفتم که چرا خطای مطلق میتونه گمراه کننده باشه). قبلا هم در این مورد پستی رو وبلاگ نوشته بودم.
متاسفانه مراکزی که باید آمار رو در اختیار مردم جامعه قرار بدن، هیچ زحمتی به خودشون نمیدن و فقط یه مقدار عدد خام که نشان دهنده هیچ چیز خاصی نیست ارائه میدن.
اینکه تو چه بازه زمانی احتمال تصادف کمتر هست میتونه به مردم در مورد زمانبندی مسافرت هاشون کمک موثری کنه و از هزینه های جامعه کم کنه. اما به دلیل دقت آماری پایین و در اغلب موارد نرمال نشدن داده ها این اطلاعات نه تنها مفید واقع نمیشه، بلکه مثل مورد بالا ممکنه گمرا کننده هم باشن.
چند سال پیش تحقیقی دیدم که توش نوشته بود خانواده های ثروتمند نسبت به خانواده های فقیر بچه های بیشتری دارن، اما مسئله این بود که این تحقیق با سن افراد نرمال نشده بود و فقط از اطلاعات درآمدی و تعداد بچه ها استفاده میکرد. این موضوع کاملا بدیهی که یه زوج 50 ساله ثروتمند تر از یه زوج 30 ساله باشن (چون اونها سالهاست کارشون رو شروع کردن در حالیکه زوج 30 ساله تازه اوایل زندگی هستن) و همچنین این موضع کاملا بدیهیه که یه زوج 50 ساله بچه های بیشتری نسبت به زوج 30 ساله داشته باشن.بنابراین نتیجه این تحقیق عملا به درد نمیخوره.
مهمترین ویژگی جمع آوری آمار اینه که بشه براساسش تصمیم گیری کرد اگر داده های آماری که ارائه میشه چنین قابلیتی نداشته باشن. تلاش و هزینه برای تولیدشون، و ارائه شون به جامعه چه سودی داره.
- ۹۲/۰۴/۱۲