بهنظر میرسد حوزه علم دادهها هر روز بیشاز گذشته بزرگتر و محبوبتر میشود. براساس جستوجوهای لینکدین، علم دادهها یکی از روبهرشدترین حوزههای کاری در سال ۲۰۱۷ بوده و در سال ۲۰۲۰ وبسایت Glassdoor فعالیت در بخش علم دادهها را بهعنوان یکی از سه حرفه برتر در ایالات متحده طبقهبندی کرده است. اما علم دادهها دقیقا چه شاخهای از علم را در برمیگیرد که چرا در سالهای اخیر با محبوبیت فزایندهای همراه شده است؟
«پتر نائور»، متخصص انفورماتیک دانمارکی نخسیتنبار در سال ۱۹۷۴ اصطلاح «علم دادهها» را در کتابش با عنوان «بررسی اجمالی روشهای رایانهای» بهعنوان انقلاب دادهشناسی (دیتالوژی) بهکار برد. در این تعریف اولیه، نائور علم دادهها را صرفاً بهعنوان رشتهای مرتبط با مدیریت و دستکاری دادهها همانطورکه بهنظر میرسند، معرفی میکند و تاکید کمی بر امکان استخراج اطلاعات ارزشمند از خود دادهها دارد.
اما ویلیام کلیولند با آغاز قرن جدید در سال ۲۰۰۱ موجودیت علم دادهها را بهعنوان رشتهای مستقل و نه بهعنوان زیرشاخهای از انفورماتیک و علم آمار بهرسمیت شناخت و نشان داد که این علم میتواند در ۶ حوزه تخصصی مختلف شامل پژوهشهای چندرشتهای، الگوها، پردازش دادهها، آموزش، ارزیابی ابزارها و نظریه خلاصه شود.
با ظهور کلاندادهها و استقبال از ایده «مقدار دادهای»، مفهوم علم دادهها تکامل یافت و بهاینترتیب به علمی کلنگر تبدیل شد که اصل بنیادین آن فقط مدیریت داده نیست بلکه ارزیابی وسیعتر مقدار ناهمگنی از دادههای برآمده از منابع مختلفی است که پایگاه دادهها، تحلیل، حسگرها، وب و غیره را شامل میشود.
بنابراین، امروزه علم دادهها را باید بهعنوان رشتهای در نظر گرفت که علوم رایانه، آمار و ریاضیات را در بر میگیرد. نتایج پژوهشی که سال ۲۰۱۸ از سوی دانشگاه پلیتکنیک میلان در ایتالیا برپایه تحلیل مشاغل عرضه شده روی شبکه اجتماعی لینکدین انجام شد، نشان میدهد که بیشترین مشاغلی که از سوی شرکتها نیاز به آنها عرضه شده مربوط به بخش علم دادهها بوده است. این مطالعه دستکم سه نوع شغل را در این بخش شناسایی کرده که دانشمند دادهها، مهندس دادهها و تحلیلگر دادهها را شامل میشود.
تعریف علم دادهها
اگر بخواهیم به هرنوع ابزار یا نمونهای از علم دادهها اشاره کنیم، باید اول بتوانیم تعریفی دقیق از این دانش را ارائه دهیم. اما ارائه تعریفی که بتواند مفهوم علم دادهها را بهدرستی بیان کند کمی پیچیده است. زیرا این اصطلاح در شیوههای مختلف تحقیق و تحلیل بهکار میرود. بنابراین، بهتر است پیشاز هرچیز این سوال را مطرح کنیم که خود اصطلاح «علم» به چه معنی است؟
علم مطالعه سیستماتیک دنیای مادی و طبیعی از طریق مشاهده و تجربه با هدف ارتقای درک بشر از فرآیندهای طبیعی است. بهاینترتیب، «مشاهده» و «درک» دو واژه مهم در تعریف مفهوم علم هستند. اگر علم دادهها را بهعنوان فرآیندی برای درک جهان از طریق الگوهایی که در دادهها وجود دارند درنظر بگیریم، پس وظیفه دانشمند دادهها تبدیل دادهها و تحلیل آنها و همچنین استخراج الگوها از دادههای تحلیل شده است.
بهبیانی دیگر، دادهها به دانشمند دادهها عرضه میشود و او از مجموعهای از ابزارها و تکنیکهای مختلف استفاده میکند تا دادهها را پیشپردازش و آنها را برای تحلیل آماده کند. پس از انجام این کار، دادهها برای رسیدن به الگوهای معنادار تحلیل میشوند.
نقش دانشمند دادهها شبیه به نقش یک دانشمند سنتی است. هر دو برای حمایت یا رد فرضیههایی درباره چگونگی عملکرد جهان، به تحلیل دادهها مشغول هستند و هر دو در تلاشند برای بهتر کردن درک ما از جهان به الگوهای دادهها معنا بخشند. دانشمندان دادهها از همان شیوههای علمی دانشمندان سنتی استفاده میکنند.
دانشمند دادهها با جمعآوری مشاهداتی که روی برخی پدیدههایی که میخواهد مطالعه کند، کارش را آغاز میکند. سپس، فرضیهای را درباره پدیده مورد سوال مطرح میکند و سعی میکند دادههایی را پیدا کند که به طرق مختلف فرضیهاش را رد کنند. درصورتیکه فرضیه توسط این دادهها نقض نشود، دانشمند قادر خواهد بود نظریه یا الگویی را درباره چگونگی عملکرد پدیده ارائه دهد.
این نظریه یا الگو بازهم میتواند آزمایش شود و دانشمند دادهها همچنان میتواند ببیند که آیا نظریهاش با دیگر دادههای مشابه قابل ارزیابی است یا خیر. اگر یک الگو بهحد کافی محکم باشد و طی سایر آزمایشها رد نشود، میتواند برای پیشبینی اتفاقات آینده آن پدیده خاص مورد استفاده قرار گیرد.
اما نکتهای که درباره دانشمندان دادهها حائز اهمیت است، این است که بهطور کلی این دانشمندان دادههای مورد نیازشان را از طریق تجربه جمعآوری نمیکنند و معمولا برای کشف متغیرهای مخدوشکنندهای که میتوانند با فرضیهای خاص تداخل داشته باشند، آزمایشها را با گروههای کنترل و کارآزماییهای دو سر کور طراحی نمیکنند.
بخش وسیعی از دادههایی که دانشمند دادهها تحلیل میکند، آنهایی هستند که از طریق مطالعات و سیستمهای مشاهداتی بهدست آمدهاند و درست در اینجاست که کار دانشمند دادهها از کار دانشمند سنتی که همواره به انجام آزمایشهای بیشتر تمایل دارد، متفاوت میشود. از اینرو، دانشمند دادهها میتواند نوعی آزمایش را تحت عنوان آزمایش A / B انجام دهد که در این آزمایش، برای دیدن چگونگی تغییر الگوهای دادهای، در سامانهای که دادهها را جمعآوری میکند بهعمد، تغییراتی ایجاد شده باشد.

سوای تکنیکها و ابزارهای مورد استفاده، علم دادهها در نهایت قصد دارد تا با درک معنای دادههایی که از طریق مشاهده و آزمایش بهدست میآیند، درک ما را از جهان بهبود بخشد. علم دادهها فرآیند استفاده از الگوریتمها، اصول آماری و ابزارها و ماشینهای مختلف برای استخراج بینش از دادهها است. این بینشها به ما کمک میکنند الگوهای جهان پیرامون خودمان را درک کنیم.
وظیفه دانشمند دادهها چیست؟
همانطور که مشاهده شد هر فعالیتی که شامل تحلیل دادهها به روش علمی باشد را میتوان علم دادهها نامید و این همان بخشی است که ارائه تعریفی درست برای علم دادهها را بسیار دشوار میکند.
برای روشن کردن موضوع، پیش از هرچیز بهتر است بعضی از فعالیتهایی را که دانشمند دادهها بهطور روزانه انجام میدهد، بررسی کنیم: درطول روز، ممکن است از دانشمند دادهها خواسته شود که الگویی را برای بایگانی کردن و بازیابی دادهها طراحی کند، خطوطی را برای دادههای ETL (استخراج، تبدیل، بارگذاری) ایجاد کند و دادهها را دوباره پاکسازی کند، از روشهای آماری استفاده کند، امکان مشاهده دادهها را فراهم کند، هوشمصنوعی را پیادهسازی کند و الگوریتمهای یادگیری خودکار و توصیههایی برای اقدامات دادهمحور را ارائه دهد.
منبع: دیجیاتو