آیا Science Data و Big Data Hadoop یکسان هستند؟ آیا تفاوت بین آنها وجود دارد یا هر دو به معنای یکسان هستند؟


پاسخ 1:

نه ، قطعاً اینطور نیست.

بیایید این مشکل را به سه قسمت تقسیم کنیم:

Data Science یک تخصص برای حل مشکلات مختلف با روش های مختلف از آمار ، ترکیب ، ریاضیات و علوم رایانه و غیره است)

Big Data: Big Data به معنای وسیع ، مفهومی برای مقابله با مقادیر زیادی از داده ها (اصطلاح "great is relative") خارج از روش های سنتی است.

Hadoop: Hadoop یک چارچوب یا محیطی است که در آن می توان مقادیر زیادی از داده ها را با ابزارهای مختلف (PIG ، HIVE ، Scoop ، Fume و غیره) مدیریت و تحلیل کرد.

منابع:

آموزش Hadoop

علم داده

داده های بزرگ


پاسخ 2:

فکر می کنم شما فکر کرده اید که "علم داده" و "Big Data Hadoop" دو چیز متفاوت هستند ، اما در واقع سه مورد وجود دارد. علم داده ، داده های بزرگ و Hadoop دارای معانی مختلفی هستند.

بیایید بگوییم شما دانش آموز کلاس 10 هستید. وظیفه میانگین کردن نمرات کسب شده توسط همکلاسی های خود در هر موضوع به شما داده شده است. شما در کلاس خود 50 دانش آموز دارید که هر کدام 5 موضوع را مطالعه می کنند. یافتن میانگین ، دانش موشکی نیست ، بنابراین همه چیز را در یک ورق اکسل انجام دهید. اکنون معلم شما از شما می خواهد که برای همه بخش های A ، B و C تقریباً 150 دانش آموز محاسبه کنید. صفحه گسترده اکسل دوباره کافی است. اکنون می خواهید بدانید که میانگین نمرات علمی دانش آموزان پایه دهم در سراسر کشور چیست. این حدود 14،31،861 دانش آموز در سال 2016 است. شما ممکن است نتوانید آن داده های زیادی را در یک برگه اکسل ذخیره کنید ، بنابراین می توانید آن را در یک پایگاه داده مانند MySQL یا Oracle ذخیره کنید. شما یک جستجوی SQL را برای پیدا کردن میانگین اجرا می کنید. اکنون شما کنجکاو هستید که ببینید میانگین های علم درجه 10 برای 20 سال در حال حرکت است که مربوط به تقریباً 3000000 پرونده است. اگر میانگین هر 5 موضوع و فقط علم را پیدا نکردید ، 30،000،000 x 5 پرونده را پردازش می کنید. داده ها اکنون بزرگ است ، که به عنوان "داده های بزرگ" نیز شناخته می شود.

Big Data - مقادیر بسیار بزرگی از داده ها که می توانند به صورت ریاضی تجزیه و تحلیل شوند تا الگوهای ، روندها و ارتباطات را آشکار سازند ، خصوصاً با توجه به رفتار و تعامل انسان. - از ویکی پدیا

احتمالاً شما نباید داده های زیادی را در MySQL یا Oracle ذخیره کنید و query SQL خود را بر روی میلیون ها رکورد اجرا نکنید. من هرگز داده های زیادی را در یک پایگاه داده SQL پردازش نکرده ام ، بنابراین در مورد عملکرد آن نظر نخواهم داد ، اما من از Hadoop برای پردازش مقدار زیادی از پرونده ها استفاده کرده ام که بسیار بزرگتر از بانک اطلاعاتی دانشجویی است که در مورد آن صحبت می کنیم. Hadoop چارچوبی است که داده ها را به چندین سیستم توزیع می کند ، به گونه ای که کلیه سیستم ها می توانند بصورت موازی محاسبه کنند و این باعث افزایش سرعت کلی محاسبه می شود ، همچنین به آن رایانه توزیع شده نیز می گویند. Hadoop دارای سیستم پرونده ای خاص خود است که یک سیستم ذخیره سازی داده برای داده های بزرگ است.

علم داده به عبارتی غیر عادی علمی است برای درک اینکه چه کاری با داده ها انجام شود ، بزرگ یا کوچک. تاکنون فقط سعی کرده ایم به طور میانگین امتیازات را بدست آوریم ، اما یک دانشمند داده نیز راه هایی را برای یافتن آنچه می توان با میانگین بدست آورد ، جستجو کرده است. برای یک سازمان ، به آنها کمک می کند تا در تصمیم گیری های شغلی تصمیم بگیرند و الگویی را پیدا کنند که به مدیران کمک می کند تصمیم های بهتری بگیرند و منابع را برای افزایش سود اختصاص دهند. اگر اکثر دانشمندان داده اگر حتی نگران داده های بزرگ نباشند ، حتی نمی توانند از Hadoop استفاده کنند. آنها معمولاً برای محاسبات خود از R lang یا Python استفاده می کنند.

داده های بزرگ یک مفهوم است. Hadoop ابزاری است. علم داده رشته ای از علوم رایانه است.


پاسخ 3:

فکر می کنم شما فکر کرده اید که "علم داده" و "Big Data Hadoop" دو چیز متفاوت هستند ، اما در واقع سه مورد وجود دارد. علم داده ، داده های بزرگ و Hadoop دارای معانی مختلفی هستند.

بیایید بگوییم شما دانش آموز کلاس 10 هستید. وظیفه میانگین کردن نمرات کسب شده توسط همکلاسی های خود در هر موضوع به شما داده شده است. شما در کلاس خود 50 دانش آموز دارید که هر کدام 5 موضوع را مطالعه می کنند. یافتن میانگین ، دانش موشکی نیست ، بنابراین همه چیز را در یک ورق اکسل انجام دهید. اکنون معلم شما از شما می خواهد که برای همه بخش های A ، B و C تقریباً 150 دانش آموز محاسبه کنید. صفحه گسترده اکسل دوباره کافی است. اکنون می خواهید بدانید که میانگین نمرات علمی دانش آموزان پایه دهم در سراسر کشور چیست. این حدود 14،31،861 دانش آموز در سال 2016 است. شما ممکن است نتوانید آن داده های زیادی را در یک برگه اکسل ذخیره کنید ، بنابراین می توانید آن را در یک پایگاه داده مانند MySQL یا Oracle ذخیره کنید. شما یک جستجوی SQL را برای پیدا کردن میانگین اجرا می کنید. اکنون شما کنجکاو هستید که ببینید میانگین های علم درجه 10 برای 20 سال در حال حرکت است که مربوط به تقریباً 3000000 پرونده است. اگر میانگین هر 5 موضوع و فقط علم را پیدا نکردید ، 30،000،000 x 5 پرونده را پردازش می کنید. داده ها اکنون بزرگ است ، که به عنوان "داده های بزرگ" نیز شناخته می شود.

Big Data - مقادیر بسیار بزرگی از داده ها که می توانند به صورت ریاضی تجزیه و تحلیل شوند تا الگوهای ، روندها و ارتباطات را آشکار سازند ، خصوصاً با توجه به رفتار و تعامل انسان. - از ویکی پدیا

احتمالاً شما نباید داده های زیادی را در MySQL یا Oracle ذخیره کنید و query SQL خود را بر روی میلیون ها رکورد اجرا نکنید. من هرگز داده های زیادی را در یک پایگاه داده SQL پردازش نکرده ام ، بنابراین در مورد عملکرد آن نظر نخواهم داد ، اما من از Hadoop برای پردازش مقدار زیادی از پرونده ها استفاده کرده ام که بسیار بزرگتر از بانک اطلاعاتی دانشجویی است که در مورد آن صحبت می کنیم. Hadoop چارچوبی است که داده ها را به چندین سیستم توزیع می کند ، به گونه ای که کلیه سیستم ها می توانند بصورت موازی محاسبه کنند و این باعث افزایش سرعت کلی محاسبه می شود ، همچنین به آن رایانه توزیع شده نیز می گویند. Hadoop دارای سیستم پرونده ای خاص خود است که یک سیستم ذخیره سازی داده برای داده های بزرگ است.

علم داده به عبارتی غیر عادی علمی است برای درک اینکه چه کاری با داده ها انجام شود ، بزرگ یا کوچک. تاکنون فقط سعی کرده ایم به طور میانگین امتیازات را بدست آوریم ، اما یک دانشمند داده نیز راه هایی را برای یافتن آنچه می توان با میانگین بدست آورد ، جستجو کرده است. برای یک سازمان ، به آنها کمک می کند تا در تصمیم گیری های شغلی تصمیم بگیرند و الگویی را پیدا کنند که به مدیران کمک می کند تصمیم های بهتری بگیرند و منابع را برای افزایش سود اختصاص دهند. اگر اکثر دانشمندان داده اگر حتی نگران داده های بزرگ نباشند ، حتی نمی توانند از Hadoop استفاده کنند. آنها معمولاً برای محاسبات خود از R lang یا Python استفاده می کنند.

داده های بزرگ یک مفهوم است. Hadoop ابزاری است. علم داده رشته ای از علوم رایانه است.