تجزیهوتحلیل اطلاعات چیست؟ میلیاردهای آینده را بهتر بشناسیم
علوم کامپیوتری در دنیای امروزی ما بهشدت در حال پیشرفت هستند و بخش عمدهای از این پیشرفت را میتوان با افزایش چشمگیر حجم دادهها همراه دانست؛ به این ترتیب میتوان درک کرد که چرا تجزیه و تحلیل دادهها در دنیای امروزی ما بهعنوان شغلی برای میلیاردرهای آینده، برای خود نامی دست و پا کرده است.
برای درک بهتر از موضوع افزایش حجم دادههای جهانی بهتر است نگاهی به اطراف خود بیندازید، هر یک از ما در صورت نداشتن یک هارددیسک اکسترنال، حداقل حجمی فراتر از ۳۰۰ گیگابایت داده را بر روی تلفن همراه هوشمند، تبلت، کامپیوتر خانگی و USB فلشهای خود در اختیار داریم. حال کافی است تا حجمی که فیلمهای DVD و بلوری داخل خانه شما به خود اختصاص دادهاند را به همراه حجم انباره دادههای برادران، خواهران و پدر و مادر خود به این مقدار بیفزایید تا به میزانی چند ترابایتی دست پیدا کنید.
حال تنها ۱۰ الی ۱۵ سال در زمان به عقب سفر خواهیم کرد، کدامیک از شما ۱۵ سال پیش با عبارت ترابایت آشنا بود؟! در آن زمان هارددیسک استاندارد برای کامپیوترهای خانگی در ارقامی بین ۸۰ تا ۱۶۰ گیگابایت تعریف شده بود، دیسکهای مدرن و بهروز، دیویدیها بودند که البته قیمت آنها بسیار بالا بود، تلفنهای همراه نهایتا در اوج لوکس بودن، نزدیک ۴ گیگابایت حافظه داخلی داشتند و عملا در کمتر مکانی هارددیسک اکسترنال وجود خارجی داشت. لپتاپ، تبلت و تلفنهای همراه هوشمند عملا ابزارهایی لوکس بهحساب میآمدند و بیشتر ما کامپیوترهای خانگی دسکتاپ در اختیار داشتیم. بهاینترتیب در هر خانهای نهایتا حجم دادهها بهزحمت به ۲۰۰ الی ۳۰۰ گیگابایت میرسید.
حال همین معادله عددی را به مقیاس کلان دادهها انتقال بدهید. در سالهای پایانی قرن پیش، نه تجارت الکترونیک برای ما معنی داشت و نه از اینترنت پرسرعت خبری بود. در آن دوران سنگینترین حجم داده در یک سرور برای یک وبسایت در محدوده گیگابایت باقی مانده بود. جالب است بدانید که در سال ۱۹۹۶ در سراسر جهان تنها تعداد ۸۰۰ هزار وبسایت وجود داشت و این رقم در سال ۲۰۰۸ به ۱۶۰ میلیون رسید و امروزه بیش از یک میلیارد وبسایت وجود دارند که برای کنترل دادههای برخی از آنها، ترابایت بهعنوان یک عدد بچگانه و خندهدار بهحساب میآید.
البته تمامی این آمار برای دنیای آنلاین، در دنیای آفلاین نیز به چشم میخورند، تعداد فروشگاههای بزرگ در سطح جهانی بسیار بالاتر رفتهاند و تنوع اجناس بهطور چشمگیری افزایش یافته است و تمامی این موارد تنها انسان را با یک مشکل بزرگ دستبهگریبان خواهد کرد: با این حجم داده چگونه میتوان بهصورت هوشمندانه کار کرد تا بتوان از آنها نهایت بهره را برد؟!
پاسخ به این سوال را باید در فنون تجزیه و تحلیل دادهها (Data analysis) جستجو کرد. برای درک بهتر این مفهوم با یک مثال به سراغ شما میآییم. امروزه در میان کاربران تلفنهای همراه در کشور، بهجرات رقمی فراتر از ۲۰ میلیون کاربر برای اپراتورهای مخابراتی مثل ایرانسل یا همراه اول وجود دارد. با این حال ما مثال خود را بر پایه این تعداد از کاربر تعریف خواهیم کرد.
اگر این اپراتور بخواهد برای کاربران خود بستههای اینترنتی عادی را ارایه کند، بدون شک سودی ثابت خواهد داشت ولی ضریب سود این شرکتها از بستهها میتواند بهسادگی افزایش پیدا کند. در نظر بگیرید که هر کاربر در طول روز برای ساعاتی خاص به استفاده از تلفن همراه هوشمند خود برای ورود به شبکه اینترنت دست میزند. این امر برای هر منطقه میتواند متفاوت باشد، برای نمونه در طول ساعات روز و یا در طول ساعت نیمهشب میتوان انتظار تفاوتهایی عمده در استفاده از اینترنت مشاهده کرد و یا میزان اتصال به شبکه اینترنت در کلانشهرهایی مانند تهران، شیراز و اصفهان و … را نمیتوان با شهرهای کوچکتر مقایسه کرد.
به این ترتیب اپراتور مخابراتی باید بداند که کاربران این اپراتور در چه ساعاتی کمترین ترافیک را بر روی شبکه اینترنت آنها دارند و در کدام مناطق، کدام ساعات بهعنوان ساعات اوج مصرف مطرح هستند. به دست آوردن این اطلاعات میتواند بسیار دشوار باشد زیرا برای هر یک از این ۲۰ میلیون کاربر میتوان مولفههایی مانند منطقه کاربری، ساعت کاربری، میزان متوسط استفاده از اینترنت بر اساس کیلوبایت، میزان دانلود محتوا، نرمافزارهای همراه پرمصرف کاربر در شبکه اینترنت و صدها مورد دیگر را در نظر گرفت. اگر تعداد مولفههای مدنظر را برابر با تنها ۱۰۰ مورد بگیریم میتوانید مشاهده کنید که برای تحلیل عملکرد کاربران در تنها یک روز، نیاز به پردازش تعداد ۲۰ میلیون در ۱۰۰ عدد ردیف داده داریم که نتیجه بهدستآمده برابر با ۲ میلیارد ردیف داده محاسباتی (البته در واقعیت این تعداد بهمراتب بیشتر از این مثال اولیه هستند) است. بدون شک مغز انسان قادر به تحلیل این دادهها نیست و برای همین نیز ابزارهایی برای استفاده مفید از این دادهها مورد نیاز هستند که به این ابزارها و تکنیکها، فنون تجزیه و تحلیل دادهها میگویند.
به کمک تحلیل دادهها، اپراتور مورد نظر میتواند بسته اینترنتی ویژهای را ارایه کند که کاربران بتوانند با پرداخت هزینهای کمتر از حد معمول به اینترنت همراه متصل شوند ولی این کار تنها در محدوده زمانی خاصی قابل انجام است. این محدوده زمانی نباید بسیار خارج از قاعده باشد (برای نمونه کمتر کسی بسته اینترنتی ساعات ۲ الی ۵ شب را خریداری خواهد کرد) و در عین حال نیز ترافیک شبکه این اپراتور در این ساعات باید در حداقل قرار داشته باشد. به این ترتیب کاربران به استفاده از این ساعات روی خواهند آورد و ترافیک در طول ساعات مختلف بهصورت متعادلتر خواهد بود، شرکت اپراتور یاد شده میتواند با کاهش قیمتهای خود، سود بیشتری را به دست بیاورد زیرا هزینه مدیریت پهنای باند برای ساعات اوج مصرف کاهش خواهد یافت.
این مثال ساده به شما ماهیت تجزیه و تحلیل دادهها را نشان میدهد. شرکتهای بزرگ حاضر به پرداخت حقوقی نجومی به افرادی هستند که این فنون را فراگرفتهاند و به همین دلیل نیز متوسط حقوق یک تحلیلگر داده در ابتدای کار بین ۵۰ تا ۷۵ هزار دلار در سال است. این رقم برای تحلیلگران حرفهای و باسابقه به بالاتر از ۱۶۵ هزار دلار در سال میرسد.
فضای متنی ما در این مقاله بسیار محدود است و به همین دلیل نیز از دوستان عزیز درخواست میکنم که در صورت داشتن سوال در این زمینه، آن را در بخش نظرات مطرح کنند تا در اسرع وقت بهصورت شخصی به آنها پاسخگو باشم.
نوشته تجزیهوتحلیل اطلاعات چیست؟ میلیاردهای آینده را بهتر بشناسیم اولین بار در - آیتیرسان پدیدار شد.