علم داده چیست؛‌ تاریخچه، روش کار و کاربردهای آن

علم داده چیست؛‌ تاریخچه، روش کار و کاربردهای آن

علم داده چیست؟ درباره‌اش چیزی شنیده‌اید؟ علم داده رشته‌ای از ریاضیات کاربردی و آمار است که اطلاعات مفیدی را در اختیارمان می‌گذارد. این اطلاعات بر اساس حجم وسیعی از داده‌های پیچیده یا داده‌های بزرگ (big data) به دست می‌آیند. علم داده ها یا داده‌محور ابعاد مختلف رشته‌های گوناگون را به‌کمک محاسبات با هم تلفیق می‌کند تا تصمیم‌گیری با توجه به داده‌های موجود ساده‌تر شود. در ادامه، از این شاخه علمی جذاب بیشتر برایتان خواهیم گفت.

نکات کلیدی: علم داده از روش‌هایی مانند یادگیری ماشینی (machine learning) و هوش مصنوعی (artificial intelligence) برای استخراج اطلاعات معنادار و پیش‌بینی الگوها و رفتارهای آینده استفاده می‌کند. پیشرفت‌های فناوری، اینترنت، شبکه‌های اجتماعی و بهره‌مندی گسترده از فناوری، دسترسی به داده‌های بزرگ را راحت‌تر کرده و توسعه داده‌ است. رشته و زمینه علم داده‌ها با پیشرفت‌های فناوری در حال رشد است. جمع‌آوری داده‌های بزرگ و روش‌های تحلیل هم مدام پیچیده‌تر می‌شوند.

علم داده چیست؟

داده‌ها از منابع مختلفی به دست می‌آیند، مثلا:

  • تلفن‌های همراه؛
  • شبکه‌های اجتماعی؛
  • وب‌سایت‌های تجاری؛
  • نظرسنجی‌های نظام سلامت؛
  • جست‌وجوهایی که در موتورهای جست‌وجویی مانند گوگل انجام می‌شوند.

افزایش داده‌های موجود دری تازه از مطالعات را بر اساس داده‌های بزرگ به رویِمان گشوده است. منظور از داده‌های بزرگ مجموعه‌ای از داده‌های حجیم و گسترده است که امکان تولید ابزارهای عملیاتی بهتر را برایمان فراهم می‌کنند.

دسترسی به داده‌ها هم به‌واسطه پیشرفت‌های فناوری و روش‌های جمع‌آوری داده بیشتر و بیشتر شده است. افراد معمولی می‌توانند با خرید داده‌هایی درباره رفتارها و الگوها، تصمیمات بهتری برای کسب‌وکارشان بگیرند. در حوزه کسب‌وکار، استفاده از داده‌ها و تحلیل و پیش‌بینی رفتار مشتریان و اقتصاد رفتاری به‌شدت کاربرد دارد.

البته رشد فزاینده داده‌ها نیاز به ساختارهایی دارد که استفاده از آنها را ممکن و کاربردشان برای تصمیم‌گیری بهتر را مقدور می‌کند. چنین فرایندی (ساختارمندکردن داده‌ها) برای شرکت‌ها پیچیده و زمان‌بر است، پس علم داده به میان آمده تا این وظیفه مهم را به عهده بگیرد.

خلاصه‌ای از تاریخ علم داده کاوی

استفاده از اصطلاح «علم داده» از اوایل دهه ۱۹۶۰ میلادی شروع شد. در آن روزها، این اصطلاح را مترادف علم رایانه می‌دانستند. بعدها، تعریف دقیق‌تری مطرح شد که می‌گفت علم داده ها یعنی بررسی روش‌های پردازش داده که در طیف گسترده‌ای از زمینه‌ها کاربرد دارد.

در سال ۲۰۰۱ میلادی، ویلیام کلیولند (William S. Cleveland) نخستین‌ بار از اصطلاح علم داده به‌عنوان عبارت و اصطلاحی مستقل و مشخص استفاده کرد که تعریفش را گفتیم. مجله کسب‌وکار هاروارد هم در سال ۲۰۱۲ مقاله‌ای منتشر و به این نکته اشاره کرد که شغل تحلیل داده‌ها یکی از جذاب‌ترین شغل‌ها در قرن ۲۱ است.

چگونه از دیتا ساینس استفاده می‌شود؟

دیتا ساینس (Data Science) یا همان علم داده ها ابزارهایی از رشته‌های علمی مختلف را با هم ترکیب می‌کند. هدفش هم جمع‌آوری مجموعه‌ای از داده‌ها، فرایندها و دریافت اطلاعات و رسیدن به بینشی کاربردی از مجموعه داده‌هاست. استخراج داده‌ها و رسیدن به اطلاعات ارزشمند و معنادار از آنها باعث می‌شود که تصمیم‌گیری در زمینه‌های مختلف آسان‌تر شود.

رشته‌ها و زمینه‌هایی که علم داده را می‌سازند عبارت‌اند از:

  • استخراج داده‌ها (mining) و آمار؛
  • یادگیری ماشینی؛
  • تجزیه‌وتحلیل آماری؛
  • برنامه‌نویسی.

۱. استخراج داده‌ها و آمار

استخراج داده‌ها یعنی با کمک‌گرفتن از الگوریتم‌های مختلف، الگوهای موجود در مجموعه داده‌های پیچیده را شناسایی کنیم و از آنها داده‌هایی بامعنی و مفید به دست بیاوریم. اقدامات آماری یا تحلیل‌های پیش‌بینی‌کننده از این داده‌ها برای سنجش رویدادهایی استفاده می‌کنند که احتمال وقوعشان در آینده وجود دارد. در واقع بر اساس آنچه داده‌ها درباره گذشته نشان می‌دهند، امکان پیش‌بینی آینده به وجود می‌آید.

۲. یادگیری ماشینی

یادگیری ماشینی ابزاری در حوزه هوش مصنوعی است که مقادیر انبوهی از داده‌ها را پردازش می‌کند. انسان‌ها هرگز نمی‌توانند چنین حجم وسیعی از داده‌ها را پردازش و بررسی کنند. یادگیری ماشینی مدل‌هایی از تصمیم‌گیری را کامل می‌کند که بر اساس تجزیه‌وتحلیل‌های پیش‌بینی‌کننده عرضه شده‌اند. این کار از طریق تطبیق احتمال رخدادی در زمان حال با رخدادی انجام می‌شود که پیش‌تر رخ داده است.

۳. تجزیه‌وتحلیل آماری و برنامه‌نویسی

تحلیلگران با تجزیه‌وتحلیل آماری، داده‌هایی ساختاریافته را به‌کمک یادگیری ماشینی و با استفاده از الگوریتم‌های مختلف جمع‌آوری و پردازش می‌کنند. کارشناسان این حوزه داده‌ها را به زبانی منسجم و قابل‌درک برای گروه‌ها تصمیم‌گیری تفسیر و خلاصه می‌کنند.

علم داده در هر زمینه‌ای کاربرد دارد، از جمله معماری، مهندسی و مدیریت داده‌ها. بدیهی است که در پیشبرد تمام این فرایندها استفاده از علم برنامه‌نویسی هم لازم می‌شود.

کارشناسان علم داده چه می‌کنند؟

کارشناسان این رشته حجم زیادی از داده‌ها را جمع‌آوری، تجزیه‌وتحلیل و تفسیر می‌کنند. متخصصان حرفه‌ای این حوزه در بهبود عملکرد شرکت‌های مختلف نقش دارند و با ارائه مدل‌هایی امکان تجزیه‌وتحلیل داده‌ها، شناسایی الگوها و روندها و بررسی روابط در مجموعه‌های داده را فراهم می‌کنند.

اطلاعات کارشناسان علم داده مزایای زیادی دارد، از جمله:

  • پیش‌بینی رفتار مشتریان؛
  • شرح وضعیت کسب‌وکارها؛
  • بررسی خطرات عملیات پروژه‌های مختلف.

این افراد با ارائه اطلاعات مناسبی که از داده‌های کاربردی به دست آمده به تصمیم‌گیرندگان کسب‌وکارهای مختلف کمک می‌کنند تصمیمات بهتری بگیرند و در راستای حل مسائل گامی مهم بردارند.

کاربرد علم داده‌ها در زمینه‌های مختلف

تقریبا تمام زمینه‌های علمی از داده‌ها بهره می‌برند. آنچه باعث تمایز علم داده کاوی می‌شود، استفاده از روش‌های محاسباتی پیچیده‌ و یادگیری ماشینی است که می‌توانند از مجموعه داده‌های بسیار بزرگ برای تحلیل استفاده کنند. گاهی داده‌های بررسی‌شده در حوزه داده‌کاوی آن‌قدر بزرگ و پیچیده‌اند که امکان استفاده از روش‌های سنتی برای تحلیلشان وجود ندارد.

علم داده‌ها می‌تواند الگوهایی برای تصمیم‌گیری بهتر تعریف و وقوع رخدادهای آینده را پیش‌بینی کند. همه اینها را هم با بررسی داده‌هایی پیش می‌برد که در ابتدا ساختارنیافته و حتی گاهی به‌ظاهر بی‌ربط هستند. کسب‌وکارهایی که به علم داده کاوی اعتقاد دارند با دریافت اطلاعات بسیار مفید می‌توانند پروژه‌های مختلف پرسودی را اجرا کنند.

مثال‌هایی از کاربرد علم داده

این روزها مقدار زیادی داده از کانال‌ها و شبکه‌های مختلف به دست می‌آیند. فرض کنید که هر کسب‌وکار برای تحلیل وضعیت خود و مشتریانش با چه حجمی از داده‌های ساختارنیافته و پیچیده روبه‌روست.

در چنین وضعیتی، دیگر ابزارهای سنتی تحلیل به کارمان نمی‌آیند و نیاز به روش‌ها و ابزارهایی است که به‌کمک آنها بتوانیم اطلاعات مفیدی از داده‌های موجود به دست بیاوریم. داده‌کاوی می‌تواند داده‌های متعدد و حجیم را با ساختاری مناسب طوری تحلیل کند که اطلاعات خوبی برای تصمیم‌گیری در زمینه‌های مختلف فراهم شود. مثلا:

  • کسب‌وکارها با تحلیل داده‌های کلان مشتریان می‌توانند آنها را بهتر بشناسند. شناسایی بهتر مشتریان هم یعنی برنامه‌های تبلیغاتی بهتر و افزایش فروش.
  • وسایل و ابزارهای جدید مانند خودروهای برقی هم به‌کمک علم داده شکل زندگی‌مان را تغییر می‌دهند، مثل خودرویی که با داده‌کاوی اطلاعاتی که درباره محیط پیرامونش دریافت می‌کند، بدون نیاز به راننده و با درجه هوشمندی بالا می‌تواند شما را به مقصد برساند.
  • دریافت داده‌ها و استفاده از آنها برای استخراج اطلاعاتی در حوزه هواشناسی و فضا هم نتایج شگفت‌انگیزی دارد و می‌تواند باعث پیش‌بینی‌هایی شود که در زندگی به‌شدت کاربردی و مفید هستند.

مراحل داده‌کاوی چیست؟

  • کشف و ارزیابی اولیه: قبل از شروع هر پروژه مبتنی بر علم داده، باید بررسی کنید که دسترسی‌تان به منابع مالی، افراد و فناوری‌های لازم برای پیشبرد پروژه چگونه است. بررسی مشکل و تعریف مسئله‌ای که قرار است با داده‌کاوی حل شود هم در این مرحله از کار انجام می‌شود.
  • آماده‌سازی داده‌ها: داده‌های لازم برای هر پروژه و کارهایی که قرار است با آنها انجام شود در این مرحله بررسی می‌شوند.
  • برنامه‌ریزی برای مدل‌سازی: در این بخش از کار ارتباط میان متغیرها بررسی می‌شود تا مدل‌سازی ممکن شود.
  • مدل‌سازی: در مدل‌سازی مجموعه داده‌هایی برای هر پروژه ایجاد می‌شوند. روش‌های کسب اطلاعات مختلف، مانند خوشه‌بندی و طبقه‌بندی هم در این زمینه به کار گرفته می‌شوند.
  • عملیاتی‌کردن پروژه: پیش از آنکه نتیجه داده‌کاوی کامل در پروژه‌ای به کار گرفته شود، از آن در مقیاس کوچک‌تر استفاده و پروژه مدنظر عملیاتی می‌شود.
  • ارزیابی خروجی و نتایج: در این مرحله بنا به نتایجی که داده‌کاوی داشته، مشخص می‌شود که پروژه مدنظر چه دستاوردها، شکست‌ها و موفقیت‌هایی به همراه خواهد داشت.

خطر استفاده نادرست از علم داده چیست؟

استفاده از داده‌ها برای کسب اطلاعات مفید در زمینه‌های مختلف ایده خیلی جالبی است، اما این علم زمینه شکل‌گیری برخی از سوءاستفاده‌ها را هم فراهم می‌کند. مثلا در بستر شبکه‌های اجتماعی، دریای وسیعی از داده‌های کاربران وجود دارد.

برخی از شرکت‌ها با بهره‌مندی از داده‌های کاربران در موضوعاتی مانند انتخابات سیاسی یا فعالیت‌های تجاری شرکت‌های مختلف مداخله می‌کنند. سوءاستفاده از داده‌های کاربران بدون اجازه‌گرفتن از آنها و برای پیشبرد اهداف سیاسی، تجاری و مانند اینها چندان جالب نیست.

مثلا شرکت کمبریج آنالیتیکا (Cambridge Analytica) از جمله شرکت‌های فعال در حوزه داده‌کاوی است که در انتخابات سیاسی از توانایی‌هایش برای درک و تحلیل شرایط استفاده‌هایی نامشروع کرده است.

در آخر

شرکت‌ها و کسب‌وکارهای مختلف در این روزها از علم داده برای ارتقای وضعیتشان به‌شدت بهره می‌برند. آنها می‌خواهند با کسب اطلاعات سودمند از داده‌های موجود و مرتبط به کارشان برای ارزش‌آفرینی بیشتر برای مشتریان استفاده کنند. مثلا بانک‌ها و مؤسسات مالی با تمرکز بر علم داده در تلاش‌اند که از بروز تقلب و کلاهبرداری جلوگیری کنند. شرکت‌های مدیریت دارایی هم برای تخمین و برآورد ارزش دارایی‌های مختلف از داده‌کاوی بهره می‌برند.

سرعت رشد علم داده بسیار زیاد است و در آینده‌ای نزدیک اثرات بسیار چشمگیرتری روی زندگی‌هایمان خواهد گذاشت. علم داده در ایران هم کاربرد دارد. البته راهی طولانی تا رسیدن به بهره‌مندی از ظرفیت‌های فوق‌العاده این گرایش علمی در پیش داریم. با این حال، متخصصان و کارشناسان خوبی در این حوزه در ایران هستند و بسیاری از شرکت‌ها و سازمان‌ها هم از داده‌کاوی برای پیشبرد پروژه‌هایشان بهره می‌برند.

افزودن دیدگاه جدید

محتوای این فیلد خصوصی است و به صورت عمومی نشان داده نخواهد شد.

HTML محدود

  • You can align images (data-align="center"), but also videos, blockquotes, and so on.
  • You can caption images (data-caption="Text"), but also videos, blockquotes, and so on.
2 + 9 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.