آمار و بحث های پیرامون آن

پ ن : در پاسخی افرادی که اعتقاد دارند آمار دروغ است. معمولا گفته فردریک ماستلر را یادآور می شوم که می گوید: درست است که به کمک آمار می توان دروغ گفت اما دروغ گفتن بدون آن کار ساده تری است. دیوید جی هند

Statistics: A Very Short Introduction

مشغول خواندن کتاب شرح مختصر آمار نوشته دیوید جی هند هستم و نکاتی به ذهنم آمد که خواستم در اینجا برایتان بنویسم. بدبینی های زیادی در خصوص آمار وجود دارد و دلایل عمده ی آن بر می گردد به سو استفاده کلاهبرداران از آمار که با انواع ترفندها در تلاش هستند تا نتایجی اشتباه از داده های درست بگیرند.

امروزه با ورود کامپیوتر و توانایی پردازشی آن داده های زیادی را میتوان در کسری از زمان پردازش کرد و یا نتایج مختلفی را از آن برداشت کرد. هر چند خود علم آمار جدید بیشتر از دو قرن قدمت ندارد و انجمن سلطنتی آمار(Royal Statistics Society) در سال ۱۸۳۴ و انجمن آمار آمریکا در سال ۱۸۳۹ و مرکز آمار ایران در سال ۱۳۱۸ شمسی پایه گذاری شده اند و برای اولین بار هم اولین دانشکده ی آمار در سال ۱۹۱۱ در دانشگاه کالج در لندن پایه گذاری شده است.

یکی از شاخه های مهم آمار نیز احتمال است که در قرن ۱۷ و در پاسخ به سوالات متعدد شرط بندی ها به وجود آمد اگر چه در دنیای امروز استفاده از احتمال در صنعت بیمهبیشتر به چشم می آید و مثلا شرکت های بیمه با محاسبه امید ریاضی به این نتیجه میرسند که وارد یک بازی شوند یا نه.

در سه دهه اخیر شاهد پیشرفت بسیار زیاد شاخه های دیگری از تحلیل داده خصوصا بر مبنای کامپیوتر بوده ایم که شامل:

Machine Learning , pattern recognition,data mining است. اینکه به خواندن آمار علاقه پیدا کرده ام و میخواهم اصول اولیه آن را هم بدانم پایه بودن بحث های آن در data mining و هر نوع استفاده از دیتا هست.

دقت همه ی نمودارهای آماری بستگی به کیفیت داده های آن دارد و کسی که میخواهد کار جمع آوری داده ها را چه به صورت فرم های الکترونیکی و چه به صورت پرسشنامه های فیزیکی انجام دهد باید پارامترهای زیادی را جدا از سوالات اصلی مدنظر قرار دهد تا باعث گمراه شدن نشود.

مثلا من زمانی که در شرکت نفت کار میکردم دیب یا اندازه ی تانکرها و مخازن را به این صورت اعلام میکردند که ۵۰۰۰۰۰ لیتر بنزین در دمای ۱۵ درجه سانتی گراد اندازه گیری شده و یا کسری مخازن ۱ میلیون لیتر در دمای ۲۰ درجه است چون میزان لیتر بدون در نظر گرفتن دمای محیط بی فایده و غیر دقیق است و با توجه به سرد و گرم شدن دما و انبساط و انقباض آن لیتراژ هم کم و زیاد میشه مثلا راننده وقتی صبح بار بنزین میبره و شب به پمپ بنزین میرسه امکان داره ۵۰۰ لیتر کسری بیاره و مالک جایگاه یا متصدی اونجا یقه اش رو بگیره و به دزدی متهمش کنه! پس داده ها به تنهایی کافی نیستند بلکه شرایط پیرامونی اون داده هم مهمه.

در اکثر پرسشنامه ها به تجربه مشخص شده که افراد مسن تمایلی به درج سن خود ندارند به همین خاطر امکان داره ما حجم بزرگی از داده ها را به همین خاطر از دست بدهیم این ایراد حتی با مجبور کردنشان نیز فایده ای ندارد چرا که امکان داره سن را اشباه بنویسند یکی از راهکارها استفاده از متغیرهای پیش فرض است که سیستم افرادی که سنشان را نمی نویسند مسن تشخیص دهد! این البته یک روش ایده آل نیست و باید خطاهای آن نیز در نظر گرفته شود.

یک نمونه خطای دیگر آماری هم آمار خودکشی است چرا که خیلی از افراد قبل از اقدام به خودکشی نمینویسند که قصد خودکشی داشته اند (به دلیل از بین رفتن بیمه عمر برای خانواده و قضاوت دیگران و …) پس نمیشود زیاد به آمار خودکشی متکی بود در واقع آمار خودکشی فعلی آمار کسانی است که قبل از اقدام  به خودکشی به اینکار اقرار کرده اند .

یکی از راه های که گوگل برای امنیت Gmail استفاده میکند همین pattern recognition است مثلا شما همیشه از شرق ایران به حساب خود لاگین میکنید و اگر مثلا چندساعت بعد از یک کشور عربی لاگین کنید گوگل حدس میزند که حساب شما هک شده البته گوگل نمیداند ما ایرانی ها به واسطه استفاده از قند شکن هر روز با تغییر IP امکان دارد از یک گوشه ی جهان لاگین شویم! این اطلاعات ورود و اطلاعات آماری برای حسابهای بانکی و استفاده از عابر بانک هم کاربرد دارد مثلا اگر به فاصله یک ساعت از دو عابر بانک در دو شهر دور از هم استفاده کنیم سیستمهای بانکی این موضوع را به صورت هوشمندانه پی گیری خواهند کرد.

یکی  از اشتباهات آماری هم به فضای نمونه برمیگرده یادمه تو دانشگاه استاد آمار و احتمال میگفت تو ایران میرن تو خیابون نظر سنجی میکنن ساعت ۱۰ صبح  اون ساعت دانشجو و استاد توی دانشگاه هستند دکتر و مهندس هم سر کار یعنی نتایج آماری ما بر اساس نظرات یک عده آدم علافه و بیکاره که ساعت ۱۰ صبح تو خیابون میچرخن!

یکی از مشهورترین اشتباهات فضای نمونه در سال ۱۹۳۶ و در آمریکا اتفاق افتاد زمانی که مجله ی literary Digest به اشتباه پیش بینی کرد لاندون به راحتی رزولت را در انتخابات ریاست جمهوری شکست میدهد. سرچشمه ی این اشتباه هم اینجا بود که فرم ها ی پرسشنامه فقط برای افرادی که هم تلفن و هم خودرو داشتند ارسال شده بود و این افراد در آن زمان قشر ثروتمند جامعه را تشکیل می ساختند.

پس در آمار مهم تر از اینکه بدانیم که یک عدد چیست باید بفهمیم که یک عدد چه معنی میدهد. در واقع آمار علم جستجوی مجهولات با تکیه بر مشهودات است . 

زیبایی اعداد

بسیاری از افراد این حقیقت که داده های عددی می توانند نشان دهنده ی زیبایی دنیای واقعی باشند را نمی پذیرند. آنها احساس میکنند که تبدیل اشیا و موضوعات به اعداد چیزی شبیه جادوگری است. در واقع نمی توان مرتکب اشتباهی بزرگ تر از این شد چرا که اعداد اجازه می دهند تا این زیبایی را بهتر و عمیق تر درک کرده و از آنها لذت ببریم. وقتی پدیده ای را به شکل عددی توصیف می کنیم بسیاری از نکات مبهم آن از بین می رود. مثلا اگر بگویم ۴ نفر در اتاق  حضور دارند کاملا متوجه منظورم می شوید اما در مقابل وقتی میگویم فلان شخص آدم جالبی است امکان دارد مقصودم را از این حرف درک نکنید یا حتی با اینکه وی شخص جالبی باشد موافق نباشید. اما قطعا به اینکه ۴ نفر در اتاق هستند مخالفت نخواهید کرد. اعداد و ارقام در تمام دنیا و بدون توجه به ملیت، دین، جنسیت، سن یا هر ویژگی شخصیتی دیگر قابل درکند. ص ۴۰ – کتاب معرفی شرح مختصر آمار نوشته دیوید جی هند.

در این کتاب کوچک مفاهیم اولیه میانگین، مد، میانه، دامنه تغییرات، انحراف معیار و چولگی به خوبی و به سادگی شرح داده شده. بخش پایانی کتاب هم در مورد احتمال و مدل های آماری است.

تلاش برای استفاده از دیتا در فروش و بازاریابی

قبلا گفتم که مشکلات زیادی بر سر راه شرکتهای ما وجود دارد که نمیتوانیم به خوبی از دیتا در بازاریابی و فروش استفاده کنیم. والبته گفتم این موانع نباید سد راه ما شود. اما هر چه که جلوتر میروم به موانع چالشی بیشتر برخورد میکنم. در هر حال تصمیم گرفتم گزارشها و اطلاعات زیر را از نرم افزار مالی شرکت بیرون بکشم به نحوی که بتوان از آن استفاده کرد.

https://cdn.sisense.com/wp-content/uploads/industry-templates-ppc-dashboard-11.jpg

گزارشهایی که در گام اول به آن نیاز دارم شامل:

  •  در بازه ی یکساله چه محصولاتی بیشترین حجم فروش را داشته اند (بر حسب ریال)
  • در بازه ی یکساله چه محصولاتی بیشترین حجم فروش را داشته اند (بر حسب تعداد)
  • یک نمودار Bar Chart برای نشان دادن بازه های یکساله دو نمودار بالا نیاز داریم به عنوان مثال نشان دهد که محصول برتر فروردین چه بوده است.
  • بهترین مشتریان در طول سه سال به تفکیک دولتی و خصوصی بر اساس دو الگوری زیر:
  • تکرار (Frequency) : تعداد دفعاتی که هر مشتری در یک بازه زمانی مشخص خرید میکند و معمولا خریداران با تکراربیشتر مشتریان راضی تری به نظر میرسند.
  • مقدار پول (Monetary): میزان هزینه ای که مشتری در یک بازه زمانی مشخص پرداخت میکند را بیان میکند.
  • درصد رشد مشتریان جدید نسبت به سال قبل
  • گزارش سبد خرید به شرح زیر:
  • چه محصولاتی با هم فاکتور شده اند یعنی چند نوع سبد خرید داریم که بیشترین تکرار را داشته اند . اول باید تکرارهای بیشتر را پیدا کرد مثلا همراه با کابل شبکه چه چیزی خرید شده و بعد باید ۱۰ سبد خرید برتر را در طول سه سال پیدا کرد.
  • مقایسه حجم فروش و سود بخش خدمات و بخش فروش در سه سال
  • چند درصد مشتریان از خدمات پس از فروش استفاده کردند

توضیحات لازم:

  1. این گزارشات اولیه صرفا برای شروع کار است و به هیچ وجه نیاز شرکت را برآورده نمیکند
  2. گزارش سبد خرید بیشتر به خاطر پیشنهاد Bundle به شرکتهای همکار است
  3.  با نرم افزار مالی شرکت نمی توان این گزارشات را به صورت کامل گرفت و احتمالا مجبور داده ها را مستقیم از دیتابیس به جای دیگری انتقال دهم
  4. لزوما این گزارشات به درد همه ی شرکتها و همه ی سازمانها نمیخورد و من با توجه به نیاز و توانایی های خودمان آن را بررسی کرده ام .

ویژن و دیدگاه من در آینده به این صورت است که:

  1. یک وب سایت تعاملی و بسیار خوب داشته باشیم تا از داده ی بازدید کنندگان و تمایلات آنها استفاده کنیم
  2. سیستم CRM بسیار مناسبی برای شرکت راه اندازی کنیم
  3. ایمیل مارکتینگ را به صورت یکپارچه راه اندازی کنیم
  4. سیستم HR را هم در شرکت داشته باشیم
  5. در نهایت یک داشبورد حرفه ای درست کنیم تا تمامی اتفاقات شرکت در زمینه های مختلف به صورت Real Time در اختیار مدیریت قرار بگیرد. خروجی تمام زیر سیستمهای شرکت باید در یک داشبورد حرفه ای جای داده شود. اگر سازمان یا شرکتی بتواند این سیستها را پیاده سازی کند و چنین داشبوردی درست کند میتواند ادعا کند که هوش تجاری یا BI را در حد توان خودش پیاده سازی کرده است.

دوباره درمورد این موضوع مینویسم. هم نتیجه مطالعه های خودم و هم کارهایی که در شرکت میکنم. موضوع جالبی است امسال سعی میکنم بیشتر مطالب بلاگم را به سه محور کلیدی IT . DATA . Marketing اختصاص بدم.