پ ن : در پاسخی افرادی که اعتقاد دارند آمار دروغ است. معمولا گفته فردریک ماستلر را یادآور می شوم که می گوید: درست است که به کمک آمار می توان دروغ گفت اما دروغ گفتن بدون آن کار ساده تری است. دیوید جی هند
مشغول خواندن کتاب شرح مختصر آمار نوشته دیوید جی هند هستم و نکاتی به ذهنم آمد که خواستم در اینجا برایتان بنویسم. بدبینی های زیادی در خصوص آمار وجود دارد و دلایل عمده ی آن بر می گردد به سو استفاده کلاهبرداران از آمار که با انواع ترفندها در تلاش هستند تا نتایجی اشتباه از داده های درست بگیرند.
امروزه با ورود کامپیوتر و توانایی پردازشی آن داده های زیادی را میتوان در کسری از زمان پردازش کرد و یا نتایج مختلفی را از آن برداشت کرد. هر چند خود علم آمار جدید بیشتر از دو قرن قدمت ندارد و انجمن سلطنتی آمار(Royal Statistics Society) در سال ۱۸۳۴ و انجمن آمار آمریکا در سال ۱۸۳۹ و مرکز آمار ایران در سال ۱۳۱۸ شمسی پایه گذاری شده اند و برای اولین بار هم اولین دانشکده ی آمار در سال ۱۹۱۱ در دانشگاه کالج در لندن پایه گذاری شده است.
یکی از شاخه های مهم آمار نیز احتمال است که در قرن ۱۷ و در پاسخ به سوالات متعدد شرط بندی ها به وجود آمد اگر چه در دنیای امروز استفاده از احتمال در صنعت بیمهبیشتر به چشم می آید و مثلا شرکت های بیمه با محاسبه امید ریاضی به این نتیجه میرسند که وارد یک بازی شوند یا نه.
در سه دهه اخیر شاهد پیشرفت بسیار زیاد شاخه های دیگری از تحلیل داده خصوصا بر مبنای کامپیوتر بوده ایم که شامل:
Machine Learning , pattern recognition,data mining است. اینکه به خواندن آمار علاقه پیدا کرده ام و میخواهم اصول اولیه آن را هم بدانم پایه بودن بحث های آن در data mining و هر نوع استفاده از دیتا هست.
دقت همه ی نمودارهای آماری بستگی به کیفیت داده های آن دارد و کسی که میخواهد کار جمع آوری داده ها را چه به صورت فرم های الکترونیکی و چه به صورت پرسشنامه های فیزیکی انجام دهد باید پارامترهای زیادی را جدا از سوالات اصلی مدنظر قرار دهد تا باعث گمراه شدن نشود.
مثلا من زمانی که در شرکت نفت کار میکردم دیب یا اندازه ی تانکرها و مخازن را به این صورت اعلام میکردند که ۵۰۰۰۰۰ لیتر بنزین در دمای ۱۵ درجه سانتی گراد اندازه گیری شده و یا کسری مخازن ۱ میلیون لیتر در دمای ۲۰ درجه است چون میزان لیتر بدون در نظر گرفتن دمای محیط بی فایده و غیر دقیق است و با توجه به سرد و گرم شدن دما و انبساط و انقباض آن لیتراژ هم کم و زیاد میشه مثلا راننده وقتی صبح بار بنزین میبره و شب به پمپ بنزین میرسه امکان داره ۵۰۰ لیتر کسری بیاره و مالک جایگاه یا متصدی اونجا یقه اش رو بگیره و به دزدی متهمش کنه! پس داده ها به تنهایی کافی نیستند بلکه شرایط پیرامونی اون داده هم مهمه.
در اکثر پرسشنامه ها به تجربه مشخص شده که افراد مسن تمایلی به درج سن خود ندارند به همین خاطر امکان داره ما حجم بزرگی از داده ها را به همین خاطر از دست بدهیم این ایراد حتی با مجبور کردنشان نیز فایده ای ندارد چرا که امکان داره سن را اشباه بنویسند یکی از راهکارها استفاده از متغیرهای پیش فرض است که سیستم افرادی که سنشان را نمی نویسند مسن تشخیص دهد! این البته یک روش ایده آل نیست و باید خطاهای آن نیز در نظر گرفته شود.
یک نمونه خطای دیگر آماری هم آمار خودکشی است چرا که خیلی از افراد قبل از اقدام به خودکشی نمینویسند که قصد خودکشی داشته اند (به دلیل از بین رفتن بیمه عمر برای خانواده و قضاوت دیگران و …) پس نمیشود زیاد به آمار خودکشی متکی بود در واقع آمار خودکشی فعلی آمار کسانی است که قبل از اقدام به خودکشی به اینکار اقرار کرده اند .
یکی از راه های که گوگل برای امنیت Gmail استفاده میکند همین pattern recognition است مثلا شما همیشه از شرق ایران به حساب خود لاگین میکنید و اگر مثلا چندساعت بعد از یک کشور عربی لاگین کنید گوگل حدس میزند که حساب شما هک شده البته گوگل نمیداند ما ایرانی ها به واسطه استفاده از قند شکن هر روز با تغییر IP امکان دارد از یک گوشه ی جهان لاگین شویم! این اطلاعات ورود و اطلاعات آماری برای حسابهای بانکی و استفاده از عابر بانک هم کاربرد دارد مثلا اگر به فاصله یک ساعت از دو عابر بانک در دو شهر دور از هم استفاده کنیم سیستمهای بانکی این موضوع را به صورت هوشمندانه پی گیری خواهند کرد.
یکی از اشتباهات آماری هم به فضای نمونه برمیگرده یادمه تو دانشگاه استاد آمار و احتمال میگفت تو ایران میرن تو خیابون نظر سنجی میکنن ساعت ۱۰ صبح اون ساعت دانشجو و استاد توی دانشگاه هستند دکتر و مهندس هم سر کار یعنی نتایج آماری ما بر اساس نظرات یک عده آدم علافه و بیکاره که ساعت ۱۰ صبح تو خیابون میچرخن!
یکی از مشهورترین اشتباهات فضای نمونه در سال ۱۹۳۶ و در آمریکا اتفاق افتاد زمانی که مجله ی literary Digest به اشتباه پیش بینی کرد لاندون به راحتی رزولت را در انتخابات ریاست جمهوری شکست میدهد. سرچشمه ی این اشتباه هم اینجا بود که فرم ها ی پرسشنامه فقط برای افرادی که هم تلفن و هم خودرو داشتند ارسال شده بود و این افراد در آن زمان قشر ثروتمند جامعه را تشکیل می دادند.
پس در آمار مهم تر از اینکه بدانیم که یک عدد چیست باید بفهمیم که یک عدد چه معنی میدهد. در واقع آمار علم جستجوی مجهولات با تکیه بر مشهودات است .
زیبایی اعداد
بسیاری از افراد این حقیقت که داده های عددی می توانند نشان دهنده ی زیبایی دنیای واقعی باشند را نمی پذیرند. آنها احساس میکنند که تبدیل اشیا و موضوعات به اعداد چیزی شبیه جادوگری است. در واقع نمی توان مرتکب اشتباهی بزرگ تر از این شد چرا که اعداد اجازه می دهند تا این زیبایی را بهتر و عمیق تر درک کرده و از آنها لذت ببریم. وقتی پدیده ای را به شکل عددی توصیف می کنیم بسیاری از نکات مبهم آن از بین می رود. مثلا اگر بگویم ۴ نفر در اتاق حضور دارند کاملا متوجه منظورم می شوید اما در مقابل وقتی میگویم فلان شخص آدم جالبی است امکان دارد مقصودم را از این حرف درک نکنید یا حتی با اینکه وی شخص جالبی باشد موافق نباشید. اما قطعا به اینکه ۴ نفر در اتاق هستند مخالفت نخواهید کرد. اعداد و ارقام در تمام دنیا و بدون توجه به ملیت، دین، جنسیت، سن یا هر ویژگی شخصیتی دیگر قابل درکند. ص ۴۰ – کتاب معرفی شرح مختصر آمار نوشته دیوید جی هند.
در این کتاب کوچک مفاهیم اولیه میانگین، مد، میانه، دامنه تغییرات، انحراف معیار و چولگی به خوبی و به سادگی شرح داده شده. بخش پایانی کتاب هم در مورد احتمال و مدل های آماری است.