علم داده چیست؟ دربارهاش چیزی شنیدهاید؟ علم داده رشتهای از ریاضیات کاربردی و آمار است که اطلاعات مفیدی را در اختیارمان میگذارد. این اطلاعات بر اساس حجم وسیعی از دادههای پیچیده یا دادههای بزرگ (big data) به دست میآیند. علم داده ها یا دادهمحور ابعاد مختلف رشتههای گوناگون را بهکمک محاسبات با هم تلفیق میکند تا تصمیمگیری با توجه به دادههای موجود سادهتر شود. در ادامه، از این شاخه علمی جذاب بیشتر برایتان خواهیم گفت.
علم داده چیست؟
دادهها از منابع مختلفی به دست میآیند، مثلا:
- تلفنهای همراه؛
- شبکههای اجتماعی؛
- وبسایتهای تجاری؛
- نظرسنجیهای نظام سلامت؛
- جستوجوهایی که در موتورهای جستوجویی مانند گوگل انجام میشوند.
افزایش دادههای موجود دری تازه از مطالعات را بر اساس دادههای بزرگ به رویِمان گشوده است. منظور از دادههای بزرگ مجموعهای از دادههای حجیم و گسترده است که امکان تولید ابزارهای عملیاتی بهتر را برایمان فراهم میکنند.
دسترسی به دادهها هم بهواسطه پیشرفتهای فناوری و روشهای جمعآوری داده بیشتر و بیشتر شده است. افراد معمولی میتوانند با خرید دادههایی درباره رفتارها و الگوها، تصمیمات بهتری برای کسبوکارشان بگیرند. در حوزه کسبوکار، استفاده از دادهها و تحلیل و پیشبینی رفتار مشتریان و اقتصاد رفتاری بهشدت کاربرد دارد.
البته رشد فزاینده دادهها نیاز به ساختارهایی دارد که استفاده از آنها را ممکن و کاربردشان برای تصمیمگیری بهتر را مقدور میکند. چنین فرایندی (ساختارمندکردن دادهها) برای شرکتها پیچیده و زمانبر است، پس علم داده به میان آمده تا این وظیفه مهم را به عهده بگیرد.
خلاصهای از تاریخ علم داده کاوی
استفاده از اصطلاح «علم داده» از اوایل دهه ۱۹۶۰ میلادی شروع شد. در آن روزها، این اصطلاح را مترادف علم رایانه میدانستند. بعدها، تعریف دقیقتری مطرح شد که میگفت علم داده ها یعنی بررسی روشهای پردازش داده که در طیف گستردهای از زمینهها کاربرد دارد.
در سال ۲۰۰۱ میلادی، ویلیام کلیولند (William S. Cleveland) نخستین بار از اصطلاح علم داده بهعنوان عبارت و اصطلاحی مستقل و مشخص استفاده کرد که تعریفش را گفتیم. مجله کسبوکار هاروارد هم در سال ۲۰۱۲ مقالهای منتشر و به این نکته اشاره کرد که شغل تحلیل دادهها یکی از جذابترین شغلها در قرن ۲۱ است.
چگونه از دیتا ساینس استفاده میشود؟
دیتا ساینس (Data Science) یا همان علم داده ها ابزارهایی از رشتههای علمی مختلف را با هم ترکیب میکند. هدفش هم جمعآوری مجموعهای از دادهها، فرایندها و دریافت اطلاعات و رسیدن به بینشی کاربردی از مجموعه دادههاست. استخراج دادهها و رسیدن به اطلاعات ارزشمند و معنادار از آنها باعث میشود که تصمیمگیری در زمینههای مختلف آسانتر شود.
رشتهها و زمینههایی که علم داده را میسازند عبارتاند از:
- استخراج دادهها (mining) و آمار؛
- یادگیری ماشینی؛
- تجزیهوتحلیل آماری؛
- برنامهنویسی.
۱. استخراج دادهها و آمار
استخراج دادهها یعنی با کمکگرفتن از الگوریتمهای مختلف، الگوهای موجود در مجموعه دادههای پیچیده را شناسایی کنیم و از آنها دادههایی بامعنی و مفید به دست بیاوریم. اقدامات آماری یا تحلیلهای پیشبینیکننده از این دادهها برای سنجش رویدادهایی استفاده میکنند که احتمال وقوعشان در آینده وجود دارد. در واقع بر اساس آنچه دادهها درباره گذشته نشان میدهند، امکان پیشبینی آینده به وجود میآید.
۲. یادگیری ماشینی
یادگیری ماشینی ابزاری در حوزه هوش مصنوعی است که مقادیر انبوهی از دادهها را پردازش میکند. انسانها هرگز نمیتوانند چنین حجم وسیعی از دادهها را پردازش و بررسی کنند. یادگیری ماشینی مدلهایی از تصمیمگیری را کامل میکند که بر اساس تجزیهوتحلیلهای پیشبینیکننده عرضه شدهاند. این کار از طریق تطبیق احتمال رخدادی در زمان حال با رخدادی انجام میشود که پیشتر رخ داده است.
۳. تجزیهوتحلیل آماری و برنامهنویسی
تحلیلگران با تجزیهوتحلیل آماری، دادههایی ساختاریافته را بهکمک یادگیری ماشینی و با استفاده از الگوریتمهای مختلف جمعآوری و پردازش میکنند. کارشناسان این حوزه دادهها را به زبانی منسجم و قابلدرک برای گروهها تصمیمگیری تفسیر و خلاصه میکنند.
علم داده در هر زمینهای کاربرد دارد، از جمله معماری، مهندسی و مدیریت دادهها. بدیهی است که در پیشبرد تمام این فرایندها استفاده از علم برنامهنویسی هم لازم میشود.
کارشناسان علم داده چه میکنند؟
کارشناسان این رشته حجم زیادی از دادهها را جمعآوری، تجزیهوتحلیل و تفسیر میکنند. متخصصان حرفهای این حوزه در بهبود عملکرد شرکتهای مختلف نقش دارند و با ارائه مدلهایی امکان تجزیهوتحلیل دادهها، شناسایی الگوها و روندها و بررسی روابط در مجموعههای داده را فراهم میکنند.
اطلاعات کارشناسان علم داده مزایای زیادی دارد، از جمله:
- پیشبینی رفتار مشتریان؛
- شرح وضعیت کسبوکارها؛
- بررسی خطرات عملیات پروژههای مختلف.
این افراد با ارائه اطلاعات مناسبی که از دادههای کاربردی به دست آمده به تصمیمگیرندگان کسبوکارهای مختلف کمک میکنند تصمیمات بهتری بگیرند و در راستای حل مسائل گامی مهم بردارند.
کاربرد علم دادهها در زمینههای مختلف
تقریبا تمام زمینههای علمی از دادهها بهره میبرند. آنچه باعث تمایز علم داده کاوی میشود، استفاده از روشهای محاسباتی پیچیده و یادگیری ماشینی است که میتوانند از مجموعه دادههای بسیار بزرگ برای تحلیل استفاده کنند. گاهی دادههای بررسیشده در حوزه دادهکاوی آنقدر بزرگ و پیچیدهاند که امکان استفاده از روشهای سنتی برای تحلیلشان وجود ندارد.
علم دادهها میتواند الگوهایی برای تصمیمگیری بهتر تعریف و وقوع رخدادهای آینده را پیشبینی کند. همه اینها را هم با بررسی دادههایی پیش میبرد که در ابتدا ساختارنیافته و حتی گاهی بهظاهر بیربط هستند. کسبوکارهایی که به علم داده کاوی اعتقاد دارند با دریافت اطلاعات بسیار مفید میتوانند پروژههای مختلف پرسودی را اجرا کنند.
مثالهایی از کاربرد علم داده
این روزها مقدار زیادی داده از کانالها و شبکههای مختلف به دست میآیند. فرض کنید که هر کسبوکار برای تحلیل وضعیت خود و مشتریانش با چه حجمی از دادههای ساختارنیافته و پیچیده روبهروست.
در چنین وضعیتی، دیگر ابزارهای سنتی تحلیل به کارمان نمیآیند و نیاز به روشها و ابزارهایی است که بهکمک آنها بتوانیم اطلاعات مفیدی از دادههای موجود به دست بیاوریم. دادهکاوی میتواند دادههای متعدد و حجیم را با ساختاری مناسب طوری تحلیل کند که اطلاعات خوبی برای تصمیمگیری در زمینههای مختلف فراهم شود. مثلا:
- کسبوکارها با تحلیل دادههای کلان مشتریان میتوانند آنها را بهتر بشناسند. شناسایی بهتر مشتریان هم یعنی برنامههای تبلیغاتی بهتر و افزایش فروش.
- وسایل و ابزارهای جدید مانند خودروهای برقی هم بهکمک علم داده شکل زندگیمان را تغییر میدهند، مثل خودرویی که با دادهکاوی اطلاعاتی که درباره محیط پیرامونش دریافت میکند، بدون نیاز به راننده و با درجه هوشمندی بالا میتواند شما را به مقصد برساند.
- دریافت دادهها و استفاده از آنها برای استخراج اطلاعاتی در حوزه هواشناسی و فضا هم نتایج شگفتانگیزی دارد و میتواند باعث پیشبینیهایی شود که در زندگی بهشدت کاربردی و مفید هستند.
مراحل دادهکاوی چیست؟
- کشف و ارزیابی اولیه: قبل از شروع هر پروژه مبتنی بر علم داده، باید بررسی کنید که دسترسیتان به منابع مالی، افراد و فناوریهای لازم برای پیشبرد پروژه چگونه است. بررسی مشکل و تعریف مسئلهای که قرار است با دادهکاوی حل شود هم در این مرحله از کار انجام میشود.
- آمادهسازی دادهها: دادههای لازم برای هر پروژه و کارهایی که قرار است با آنها انجام شود در این مرحله بررسی میشوند.
- برنامهریزی برای مدلسازی: در این بخش از کار ارتباط میان متغیرها بررسی میشود تا مدلسازی ممکن شود.
- مدلسازی: در مدلسازی مجموعه دادههایی برای هر پروژه ایجاد میشوند. روشهای کسب اطلاعات مختلف، مانند خوشهبندی و طبقهبندی هم در این زمینه به کار گرفته میشوند.
- عملیاتیکردن پروژه: پیش از آنکه نتیجه دادهکاوی کامل در پروژهای به کار گرفته شود، از آن در مقیاس کوچکتر استفاده و پروژه مدنظر عملیاتی میشود.
- ارزیابی خروجی و نتایج: در این مرحله بنا به نتایجی که دادهکاوی داشته، مشخص میشود که پروژه مدنظر چه دستاوردها، شکستها و موفقیتهایی به همراه خواهد داشت.
خطر استفاده نادرست از علم داده چیست؟
استفاده از دادهها برای کسب اطلاعات مفید در زمینههای مختلف ایده خیلی جالبی است، اما این علم زمینه شکلگیری برخی از سوءاستفادهها را هم فراهم میکند. مثلا در بستر شبکههای اجتماعی، دریای وسیعی از دادههای کاربران وجود دارد.
برخی از شرکتها با بهرهمندی از دادههای کاربران در موضوعاتی مانند انتخابات سیاسی یا فعالیتهای تجاری شرکتهای مختلف مداخله میکنند. سوءاستفاده از دادههای کاربران بدون اجازهگرفتن از آنها و برای پیشبرد اهداف سیاسی، تجاری و مانند اینها چندان جالب نیست.
مثلا شرکت کمبریج آنالیتیکا (Cambridge Analytica) از جمله شرکتهای فعال در حوزه دادهکاوی است که در انتخابات سیاسی از تواناییهایش برای درک و تحلیل شرایط استفادههایی نامشروع کرده است.
در آخر
شرکتها و کسبوکارهای مختلف در این روزها از علم داده برای ارتقای وضعیتشان بهشدت بهره میبرند. آنها میخواهند با کسب اطلاعات سودمند از دادههای موجود و مرتبط به کارشان برای ارزشآفرینی بیشتر برای مشتریان استفاده کنند. مثلا بانکها و مؤسسات مالی با تمرکز بر علم داده در تلاشاند که از بروز تقلب و کلاهبرداری جلوگیری کنند. شرکتهای مدیریت دارایی هم برای تخمین و برآورد ارزش داراییهای مختلف از دادهکاوی بهره میبرند.
سرعت رشد علم داده بسیار زیاد است و در آیندهای نزدیک اثرات بسیار چشمگیرتری روی زندگیهایمان خواهد گذاشت. علم داده در ایران هم کاربرد دارد. البته راهی طولانی تا رسیدن به بهرهمندی از ظرفیتهای فوقالعاده این گرایش علمی در پیش داریم. با این حال، متخصصان و کارشناسان خوبی در این حوزه در ایران هستند و بسیاری از شرکتها و سازمانها هم از دادهکاوی برای پیشبرد پروژههایشان بهره میبرند.