Big Data Framework overview
Elena Shoikova, Roumen Nikolov, Eugenia Kovatcheva, Boyan Jekov, Lyubomir Gotsev
This work presents the results of a systematic review about the Big Data Framework. The overview of the meanings of the broad terms Big Data and Data Science is based mainly on NIST Big Data Interoperability Framework (National Institute of Standards and Technology, NIST, USA). Terms and definitions of concepts integral to Big Data and Big Data characteristics are presented with relevant discussions. Concepts of Data Science as an interdisciplinary field of study dealing with the convergence of subfields of Domain Data & Processes, Statistics and Software & Systems Engineering are presented. Some of the main differences between Big Data and Data Science concepts are considered along with the implications of the study for Big Data Scientist competence profile. The need for Big Data standards development and CRISP-DM methodology as well as the NIST Big Data Reference Framework are discussed as open standards to which a project manager or educator or other interested in Big Data party can refer to for best practices. The Big Data Requirements are discussed with the goal of stressing the importance of developing a consensus list of Big Data general requirements across all stakeholders. Finally, the implementation of Big Data reference architecture is illustrated by some of the best solutions as IBM Big Data Platform, the Oracle Big Data reference architecture and the SAP Big Data architecture.
Тази работа представя резултатите от систематичен преглед на рамката за големи данни. Прегледът на значенията на широките термини големи данни (Big Data) и науката за данни (Data Science) се основава главно на рамката за оперативна съвместимост с големи данни на NIST (Национален институт за стандарти и технологии, NIST, САЩ). Термините и дефинициите на понятия, интегрални в характеристиките на Big Data, са представени със съответните дискусии. Представени са концепции за науката за данни като интердисциплинарна област на изследване, която се занимава с конвергенцията на подобластите данни и процеси в областта, статистика и софтуер и системно инженерство. Някои от основните разлики между концепциите Big Data и Data Science се разглеждат заедно с последиците от проучването за профила на компетентността на учения по големи данни (Big Data Scientist). Необходимостта от разработване на стандарти за големи данни и методологията CRISP-DM, както и референтната рамка за големи данни на NIST се обсъждат като отворени стандарти, към които всеки ръководител на проект или преподавател или други заинтересовани от Big Data, могат да се позовават за най-добри практики. Обсъждат се изисквания за големите данни с цел да се подчертае значението на разработването на консенсусен списък с общи изисквания за големи данни за всички заинтересовани страни. И накрая, внедряването на референтната архитектура на Big Data е илюстрирано от някои от най-добрите решения като IBM Big Data Platform, Oracle Big Data референтна архитектура и SAP Big Data архитектура.
Cite this article as:
Shoikova E., Nikolov R., Kovatcheva E., Jekov B., Gotsev L. Big Data Framework overview. Electrotechnica & Electronica (Е+Е), Vol. 55 (1-2), 2020, pp.22-34, ISSN: 0861-4717 (Print), 2603-5421 (Online)