Big Data - ce sunt sistemele de big data? Dezvoltarea tehnologiilor Big Data. Ce este Big Data: caracteristici, clasificare, exemple Industria Big Data

Accelerarea constantă a creșterii datelor este un element integral al realităților moderne. Rețelele sociale, dispozitivele mobile, datele de la dispozitivele de măsurare, informațiile de afaceri sunt doar câteva tipuri de surse care pot genera cantități gigantice de date.

În prezent, termenul Big Data a devenit destul de comun. Nu toată lumea este încă conștientă de cât de rapid și profund tehnologiile de procesare a cantităților mari de date schimbă cele mai diverse aspecte ale societății. Au loc schimbări în diverse domenii, dând naștere la noi probleme și provocări, inclusiv în domeniu securitatea informatiei, unde aspectele sale cele mai importante precum confidențialitatea, integritatea, disponibilitatea etc. ar trebui să fie în prim plan.

Din păcate, multe companii moderne recurg la tehnologia Big Data fără a crea infrastructura adecvată pentru aceasta pe care ar putea să o asigure depozitare sigură cantitățile uriașe de date pe care le colectează și le stochează. Pe de altă parte, tehnologia blockchain se dezvoltă în prezent rapid, care este concepută pentru a rezolva aceasta și multe alte probleme.

Ce este Big Data?

De fapt, definiția termenului este simplă: „big data” înseamnă gestionarea unor volume foarte mari de date, precum și analiza acestora. Dacă privim mai larg, aceasta este o informație care nu poate fi procesată prin metode clasice din cauza volumelor mari.

Termenul Big Data în sine a apărut relativ recent. Potrivit Google Trends, creșterea activă a popularității termenului a avut loc la sfârșitul anului 2011:

În 2010 au început să apară primele produse și soluții legate direct de prelucrarea datelor mari. Până în 2011, majoritatea celor mai mari companii IT, inclusiv IBM, Oracle, Microsoft și Hewlett-Packard, folosesc în mod activ termenul Big Data în strategiile lor de afaceri. Treptat analiştii de piaţă tehnologia Informatieiîncep cercetările active asupra acestui concept.

În prezent, acest termen a câștigat o popularitate semnificativă și este utilizat în mod activ într-o varietate de domenii. Cu toate acestea, nu se poate spune cu certitudine că Big Data este un fel de fenomen fundamental nou - dimpotrivă, sursele de date mari există de mulți ani. În marketing, acestea includ baze de date cu achizițiile clienților, istoricul creditului, stilul de viață și așa mai departe. De-a lungul anilor, analiștii au folosit aceste date pentru a ajuta companiile să prezică nevoile viitoare ale clienților, să evalueze riscurile, să modeleze preferințele consumatorilor și multe altele.

În prezent, situația s-a schimbat în două aspecte:

— au apărut instrumente și metode mai sofisticate pentru analiza și compararea diferitelor seturi de date;
— instrumentele de analiză au fost completate cu multe surse de date noi, datorită tranziției pe scară largă la tehnologiile digitale, precum și noilor metode de colectare și măsurare a datelor.

Cercetătorii prevăd că tehnologiile Big Data vor fi utilizate cel mai activ în producție, asistență medicală, comerț, administrație guvernamentală și în alte domenii și industrii diverse.

Big Data nu este o serie specifică de date, ci un set de metode de procesare a acestora. Caracteristica definitorie a datelor mari nu este doar volumul, ci și alte categorii care caracterizează procesele de prelucrare și analiză a datelor care necesită forță de muncă.

Datele inițiale pentru prelucrare pot fi, de exemplu:

— jurnalele de comportament ale utilizatorilor de internet;
- Internetul Lucrurilor;
- social media;
— date meteorologice;
— cărți digitizate din biblioteci importante;
— semnale GPS de la vehicule;
— informații despre tranzacțiile clienților băncii;
— date privind localizarea abonaților retele mobile;
— informații despre achizițiile din marile lanțuri de retail etc.

De-a lungul timpului, volumul de date și numărul surselor acestora este în continuă creștere, iar pe acest fond apar noi metode de prelucrare a informațiilor, iar cele existente sunt îmbunătățite.

Principiile de bază ale Big Data:

— Scalabilitate orizontală – matricele de date pot fi uriașe și asta înseamnă că sistemul de procesare a datelor mari trebuie să se extindă dinamic pe măsură ce volumul lor crește.
— Toleranță la defecțiuni – chiar dacă unele elemente ale echipamentului defectează, întregul sistem trebuie să rămână operațional.
— Localitatea datelor. În sistemele mari distribuite, datele sunt de obicei distribuite pe un număr semnificativ de mașini. Cu toate acestea, ori de câte ori este posibil și pentru a economisi resurse, datele sunt adesea procesate pe același server unde sunt stocate.

Pentru funcționarea stabilă a tuturor celor trei principii și, în consecință, pentru o eficiență ridicată a stocării și procesării datelor mari, sunt necesare noi tehnologii inovatoare, cum ar fi, de exemplu, blockchain.

De ce avem nevoie de date mari?

Domeniul de aplicare al Big Data este în continuă extindere:

— Datele mari pot fi folosite în medicină. Astfel, un diagnostic poate fi pus pentru un pacient nu numai pe baza datelor dintr-o analiză a istoricului medical al pacientului, ci și luând în considerare experiența altor medici, informații despre situația de mediu din zona de rezidență a pacientului și multi alti factori.
— Tehnologiile Big Data pot fi utilizate pentru a organiza circulația vehiculelor fără pilot.
— Prin procesarea unor cantități mari de date, puteți recunoaște fețe în fotografii și videoclipuri.
— Tehnologiile Big Data pot fi utilizate de comercianții cu amănuntul - companiile comerciale pot folosi în mod activ seturi de date din retele sociale Pentru configurare eficientă campaniile lor de publicitate, care pot fi direcționate maxim către un anumit segment de consumatori.
Această tehnologie este utilizat activ în organizarea campaniilor electorale, inclusiv pentru analiza preferințelor politice din societate.
— Utilizarea tehnologiilor Big Data este relevantă pentru soluțiile din clasa de asigurare a veniturilor (RA), care includ instrumente de detectare a inconsecvențelor și analiză aprofundată a datelor, permițând identificarea în timp util a pierderilor probabile sau a distorsiunilor de informații care ar putea duce la o scădere a rezultate financiare.
— Furnizorii de telecomunicații pot agrega date mari, inclusiv geolocalizarea; la rândul lor, aceste informații pot prezenta un interes comercial pentru agențiile de publicitate, care le pot folosi pentru a afișa publicitate țintită și locală, precum și pentru retaileri și bănci.
— Big data poate juca un rol important în deciziile de deschidere punct de vânzareîntr-o anumită locație bazată pe date despre prezența unui flux puternic de persoane vizate.

Astfel, cea mai evidentă aplicație practică a tehnologiei Big Data se află în domeniul marketingului. Datorită dezvoltării Internetului și proliferării tuturor tipurilor de dispozitive de comunicare, datele comportamentale (cum ar fi numărul de apeluri, obiceiurile de cumpărături și achizițiile) devin disponibile în timp real.

Tehnologiile de date mari pot fi utilizate eficient și în finanțe, pentru cercetarea sociologică și în multe alte domenii. Experții susțin că toate aceste oportunități de utilizare a datelor mari sunt doar partea vizibilă a aisbergului, deoarece aceste tehnologii sunt utilizate în volume mult mai mari în informații și contrainformații, în afaceri militare, precum și în tot ceea ce se numește în mod obișnuit război informațional.

În termeni generali, secvența de lucru cu Big Data constă în colectarea datelor, structurarea informațiilor primite folosind rapoarte și tablouri de bord și apoi formularea de recomandări de acțiune.

Să luăm în considerare pe scurt posibilitățile de utilizare a tehnologiilor Big Data în marketing. După cum știți, pentru un marketer, informația este principalul instrument de previziune și dezvoltare a strategiei. Analiza datelor mari a fost mult timp folosită cu succes pentru a determina public țintă, interesele, cererea și activitatea consumatorilor. Analiza datelor mari, în special, face posibilă afișarea reclamelor (pe baza modelului de licitație RTB - Real Time Bidding) doar acelor consumatori care sunt interesați de un produs sau serviciu.

Utilizarea Big Data în marketing le permite oamenilor de afaceri să:

— cunoaște-ți mai bine consumatorii, atrage un public similar pe internet;
— evaluarea gradului de satisfacție a clienților;
— să înțeleagă dacă serviciul propus corespunde așteptărilor și nevoilor;
— găsiți și implementați noi modalități de creștere a încrederii clienților;
— creați proiecte care sunt solicitate etc.

De exemplu, serviciul Google.trends poate indica unui agent de marketing o prognoză a activității sezoniere a cererii pentru un anumit produs, fluctuațiile și geografia clicurilor. Dacă comparați aceste informații cu datele statistice colectate de plugin-ul corespunzător de pe propriul site, puteți întocmi un plan de distribuție a bugetului de publicitate, indicând luna, regiunea și alți parametri.

Potrivit multor cercetători, succesul campaniei electorale Trump constă în segmentarea și utilizarea Big Data. Echipa viitorului președinte al SUA a reușit să împartă corect audiența, să-i înțeleagă dorințele și să arate exact mesajul pe care alegătorii vor să-l vadă și să-l audă. Astfel, potrivit Irinei Belysheva de la Data-Centric Alliance, victoria lui Trump a fost posibilă în mare măsură datorită unei abordări non-standard a marketingului pe Internet, care s-a bazat pe Big Data, analiză psihologică și comportamentală și publicitate personalizată.

Strategii politici și marketerii ai lui Trump au folosit un model matematic special dezvoltat, care a făcut posibilă analiza profundă a datelor tuturor alegătorilor din SUA și sistematizarea acestora, făcând o țintire ultra-precisă nu numai după caracteristicile geografice, ci și după intențiile, interesele alegătorilor, psihotipul lor, caracteristicile comportamentale etc. După Pentru a realiza acest lucru, marketerii au organizat o comunicare personalizată cu fiecare grup de cetățeni în funcție de nevoile, stările de spirit, opiniile politice, caracteristicile psihologice și chiar culoarea pielii, folosind propriul mesaj pentru aproape fiecare alegător individual.

Cât despre Hillary Clinton, în campania ei a folosit metode „testate în timp” bazate pe date sociologice și marketing standard, împărțind electoratul doar în grupuri formal omogene (bărbați, femei, afro-americani, latino-americani, săraci, bogați etc.) .

Drept urmare, câștigătorul a fost cel care a apreciat potențialul noilor tehnologii și metode de analiză. Este de remarcat faptul că cheltuielile de campanie ale lui Hillary Clinton au fost de două ori mai mari decât ale adversarului ei:

Date: Pew Research

Principalele probleme ale utilizării Big Data

Pe lângă costul ridicat, unul dintre principalii factori care împiedică implementarea Big Data în diverse domenii este problema alegerii datelor care trebuie prelucrate: adică determinarea care date trebuie preluate, stocate și analizate și care ar trebui să fie prelucrate. să nu fie luate în considerare.

O altă problemă cu Big Data este etică. Cu alte cuvinte, apare o întrebare logică: o astfel de colectare de date (mai ales fără știrea utilizatorului) poate fi considerată o încălcare a vieții private?

Nu este un secret pentru nimeni acea informație stocată motoare de căutare Google și Yandex permit giganților IT să își îmbunătățească în mod constant serviciile, să le facă ușor de utilizat și să creeze noi aplicații interactive. Pentru a face acest lucru, motoarele de căutare colectează date utilizatorilor despre activitatea utilizatorului pe Internet, adrese IP, date de geolocalizare, interese și achiziții online, date personale, mesaje de e-mail etc. Toate acestea le permit să afișeze reclame contextuale în conformitate cu comportamentul utilizatorului pe internetul. În acest caz, de obicei nu se cere consimțământul utilizatorilor pentru acest lucru și nu se oferă posibilitatea de a alege ce informații despre ei înșiși să furnizeze. Adică, în mod implicit, totul este colectat în Big Data, care va fi apoi stocat pe serverele de date ale site-urilor.

Aceasta duce la următoarea problemă importantă privind securitatea stocării și utilizării datelor. De exemplu, este sigură o anumită platformă de analiză pe care o folosesc consumatorii? mod automat transmite datele tale? În plus, mulți reprezentanți de afaceri constată o lipsă de analiști și agenți de marketing cu înaltă calificare, care pot gestiona eficient volume mari de date și pot rezolva probleme specifice de afaceri cu ajutorul lor.

În ciuda tuturor dificultăților cu implementarea Big Data, afacerea intenționează să crească investițiile în acest domeniu. Potrivit cercetării Gartner, liderii industriilor care investesc în Big Data sunt companiile media, retail, telecom, bancare și servicii.

Perspective de interacțiune între tehnologiile blockchain și Big Data

Integrarea cu Big Data are un efect sinergic și deschide o gamă largă de noi oportunități pentru afaceri, inclusiv permițând:

— obțineți acces la informații detaliate despre preferințele consumatorilor, pe baza cărora puteți construi profiluri analitice detaliate pentru anumiți furnizori, produse și componente ale produsului;
— integrarea datelor detaliate privind tranzacțiile și statisticile de consum ale anumitor grupuri de bunuri pe diferite categorii de utilizatori;
— să primească date analitice detaliate privind lanțurile de aprovizionare și de consum, să controleze pierderile de produse în timpul transportului (de exemplu, pierderea în greutate datorată uscării și evaporării anumitor tipuri de mărfuri);
— contracararea contrafacerii produselor, creșterea eficienței luptei împotriva spălării banilor și fraudei etc.

Accesul la date detaliate privind utilizarea și consumul de bunuri va dezvălui în mod semnificativ potențialul tehnologiei Big Data pentru optimizarea proceselor cheie de afaceri, reducerea riscurilor de reglementare, dezvăluirea de noi oportunități de monetizare și crearea de produse care vor satisface cel mai bine preferințele actuale ale consumatorilor.

După cum se știe, reprezentanții celor mai mari instituții financiare manifestă deja un interes semnificativ față de tehnologia blockchain, inclusiv etc. Potrivit lui Oliver Bussmann, manager IT al holdingului financiar elvețian UBS, tehnologia blockchain poate „reduce timpul de procesare a tranzacțiilor de la câteva zile la câteva zile. minute”.

Potențialul de analiză din blockchain folosind tehnologia Big Data este enorm. Tehnologia contabilă distribuită asigură integritatea informațiilor, precum și stocarea fiabilă și transparentă a întregului istoric al tranzacțiilor. Big Data, la rândul său, oferă noi instrumente pentru analiză eficientă, prognoză, modelare economică și, în consecință, deschide noi oportunități pentru luarea unor decizii de management mai informate.

Tandemul de blockchain și Big Data poate fi folosit cu succes în domeniul sănătății. După cum se știe, datele imperfecte și incomplete despre starea de sănătate a pacientului cresc foarte mult riscul unui diagnostic incorect și al tratamentului prescris incorect. Datele critice despre sănătatea clienților instituțiilor medicale ar trebui să fie protejate la maximum, să aibă proprietăți de imuabilitate, să fie verificabile și să nu facă obiectul niciunei manipulări.

Informațiile din blockchain îndeplinesc toate cerințele de mai sus și pot servi drept sursă de date de înaltă calitate și fiabile pentru o analiză aprofundată folosind noile tehnologii Big Data. În plus, cu ajutorul blockchain-ului, instituțiile medicale ar putea face schimb de date fiabile cu companii de asigurări, autorități judiciare, angajatori, instituții științifice și alte organizații care au nevoie de informații medicale.

Big Data și securitatea informațiilor

ÎN larg înțeles, securitatea informațiilor este securitatea informațiilor și a infrastructurii de sprijin împotriva impacturilor negative accidentale sau intenționate de natură naturală sau artificială.

În domeniul securității informațiilor, Big Data se confruntă cu următoarele provocări:

— probleme de protecție a datelor și de asigurare a integrității acestora;
— riscul de interferență externă și scurgere de informații confidențiale;
— stocarea necorespunzătoare a informațiilor confidențiale;
— riscul pierderii de informații, de exemplu, din cauza acțiunilor rău intenționate ale cuiva;
— riscul utilizării greșite a datelor cu caracter personal de către terți etc.

Una dintre principalele probleme de date mari pe care blockchain-ul este conceput să le rezolve se află în zona securității informațiilor. Asigurând conformitatea cu toate principiile sale de bază, tehnologia registrului distribuit poate garanta integritatea și fiabilitatea datelor, iar datorită absenței unui singur punct de eșec, blockchain face ca munca să fie stabilă. sisteme de informare. Tehnologia contabilă distribuită poate ajuta la rezolvarea problemei încrederii în date, precum și la activarea partajării universale a datelor.

Informația este un atu valoros, ceea ce înseamnă că asigurarea aspectelor de bază ale securității informațiilor trebuie să fie în prim-plan. Pentru a supraviețui concurenței, companiile trebuie să țină pasul cu vremurile, ceea ce înseamnă că nu pot ignora potențialele oportunități și avantaje pe care le conțin tehnologia blockchain și instrumentele Big Data.

La un moment dat am auzit termenul „Big Data” de la germanul Gref (șeful Sberbank). Ei spun că acum lucrează activ la implementare, deoarece acest lucru îi va ajuta să reducă timpul de lucru cu fiecare client.

A doua oară când am întâlnit acest concept a fost într-un magazin online al unui client, la care lucram și am mărit sortimentul de la câteva mii la câteva zeci de mii de articole de produs.

A treia oară am văzut că Yandex avea nevoie de un analist de date mari. Apoi m-am hotărât să aprofundez acest subiect și, în același timp, să scriu un articol care să spună ce fel de termen este cel care emoționează mințile managerilor de TOP și spațiul internetului.

Ce este

De obicei, încep oricare dintre articolele mele cu o explicație despre ce este acest termen. Acest articol nu va face excepție.

Cu toate acestea, acest lucru este cauzat în primul rând nu de dorința de a arăta cât de inteligent sunt, ci de faptul că subiectul este cu adevărat complex și necesită o explicație atentă.

De exemplu, puteți citi ce sunt datele mari pe Wikipedia, să nu înțelegeți nimic și apoi să reveniți la acest articol pentru a înțelege în continuare definiția și aplicabilitatea pentru afaceri. Deci, să începem cu o descriere și apoi cu exemple pentru afaceri.

Big data este big data. Uimitor, nu? De fapt, acest lucru se traduce din engleză ca „date mari”. Dar această definiție, s-ar putea spune, este pentru manechini.

Tehnologia Big Data este o abordare/metodă de prelucrare a mai multor date de obținut informație nouă, care sunt dificil de prelucrat prin metode convenționale.

Datele pot fi fie procesate (structurate), fie dispersate (adică nestructurate).

Termenul în sine a apărut relativ recent. În 2008, un jurnal științific a prezis această abordare ca fiind necesară pentru a face față unor cantități mari de informații care cresc exponențial.

De exemplu, în fiecare an informațiile de pe Internet care trebuie stocate și, bineînțeles, prelucrate cresc cu 40%. Încă o dată: +40% informații noi apar pe internet în fiecare an.

Dacă documentele tipărite sunt clare și metodele de procesare a acestora sunt, de asemenea, clare (transfer în formă electronică, cusătură într-un singur folder, număr), atunci ce să faceți cu informațiile care sunt prezentate în „media” complet diferite și în alte volume:

  • documente pe internet;
  • Bloguri și rețele sociale;
  • Surse audio/video;
  • Aparate de măsurare.

Există caracteristici care permit ca informațiile și datele să fie clasificate ca date mari. Adică, nu toate datele pot fi potrivite pentru analiză. Aceste caracteristici conțin exact conceptul cheie al datelor mari. Toate se potrivesc în trei Vs.

  1. Volum(din volumul englezesc). Datele sunt măsurate în funcție de volumul fizic al „documentului” de analizat;
  2. Viteză(din engleza velocity). Datele nu stau nemișcate în dezvoltarea lor, ci sunt în continuă creștere, motiv pentru care este necesară prelucrarea lor rapidă pentru a obține rezultate;
  3. Manifold(din varietatea engleză). Este posibil ca datele să nu aibă același format. Adică pot fi împrăștiate, structurate sau parțial structurate.

Cu toate acestea, din când în când un al patrulea V (veritate) și chiar un al cincilea V se adaugă la VVV (în unele cazuri aceasta este viabilitatea, în altele este valoare).

Undeva am văzut chiar și 7V, care caracterizează datele legate de big data. Dar, după părerea mea, aceasta este dintr-o serie (unde se adaugă periodic P-uri, deși primele 4 sunt suficiente pentru înțelegere).

SUNTEM DEJA MAI MULT DE 29.000 de oameni.
PORNIȚI

Cine are nevoie

Apare o întrebare logică: cum puteți utiliza informațiile (dacă este ceva, big data este de sute și mii de terabytes)?

Nici măcar atât. Iată informațiile. Atunci de ce a fost inventat întâlnirea mare atunci? Care este utilizarea datelor mari în marketing și afaceri?

  1. Bazele de date convenționale nu pot stoca și procesa (nici măcar nu vorbesc acum despre analiză, ci pur și simplu stochează și procesează) cantități uriașe de informații.
    Big data rezolvă această problemă principală. Stochează și gestionează cu succes volume mari de informații;
  2. Structurează informații provenind din diverse surse (video, imagini, audio și documente text), într-o singură formă, inteligibilă și digerabilă;
  3. Generarea de analize și crearea de previziuni precise bazate pe informații structurate și procesate.

Este complicat. Pentru a spune simplu, orice marketer care înțelege că dacă studiezi o cantitate mare de informații (despre tine, compania ta, concurenții tăi, industria ta), poți obține rezultate foarte decente:

  • Înțelegerea completă a companiei și a afacerii dvs. din punct de vedere al cifrelor;
  • Studiază-ți concurenții. Iar aceasta, la rândul său, va face posibilă trecerea înainte prin dominarea lor;
  • Aflați informații noi despre clienții dvs.

Și tocmai pentru că tehnologia big data produce următoarele rezultate, toată lumea se grăbește cu ea. Ei încearcă să încorporeze această afacere în compania lor pentru a crește vânzările și a reduce costurile. Și dacă anume, atunci:

  1. Creșterea vânzărilor încrucișate și a vânzărilor suplimentare datorită cunoașterii mai bune a preferințelor clienților;
  2. Căutați produse populare și motivele pentru care oamenii le cumpără (și invers);
  3. Îmbunătățirea unui produs sau serviciu;
  4. Îmbunătățirea nivelului de servicii;
  5. Creșterea loialității și a orientării către clienți;
  6. Prevenirea fraudei (mai relevant pentru sectorul bancar);
  7. Reducerea costurilor inutile.

Cel mai frecvent exemplu, care este dat în toate sursele, este, desigur, compania Apple, care colectează date despre utilizatorii săi (telefon, ceas, computer).

Din cauza prezenței unui ecosistem, corporația știe atât de multe despre utilizatorii săi și ulterior îl folosește pentru a obține profit.

Puteți citi aceste și alte exemple de utilizare în orice alt articol, cu excepția celui acesta.

Exemplu modern

O să vă povestesc despre un alt proiect. Sau, mai degrabă, despre o persoană care construiește viitorul folosind soluții de date mari.

Acesta este Elon Musk și compania lui Tesla. Visul lui principal este să faci mașinile autonome, adică te urci la volan, pornești pilotul automat de la Moscova la Vladivostok și... adormi, pentru că nu trebuie deloc să conduci mașina, pentru că o să faci. totul în sine.

S-ar părea fantastic? Dar nu! Doar că Elon a acționat mult mai înțelept decât Google, care controlează mașinile folosind zeci de sateliți. Și a mers pe cealaltă direcție:

  1. Fiecare mașină vândută este echipată cu un computer care colectează toate informațiile.
    Toate – asta înseamnă totul. Despre șofer, stilul său de condus, drumurile din jurul lui, mișcarea altor mașini. Volumul acestor date ajunge la 20-30 GB pe oră;
  2. În continuare, aceste informații sunt transmise prin comunicare prin satelit către un computer central, care prelucrează aceste date;
  3. Pe baza datelor mari procesate de acest computer, se construiește un model de vehicul fără pilot.

Apropo, dacă Google merge destul de prost și mașinile lor intră constant în accidente, atunci Musk, datorită faptului că lucrează cu big data, se descurcă mult mai bine, deoarece modelele de testare arată rezultate foarte bune.

Dar... Totul tine de economie. Ce suntem cu toții despre profit, dar despre profit? Multe lucruri pe care le poate decide o întâlnire mare nu au nicio legătură cu câștigurile și banii.

Statisticile Google, bazate pe date mari, arată un lucru interesant.

Înainte ca medicii să anunțe începutul unei epidemii de boală într-o anumită regiune, numărul persoanelor din acea regiune crește semnificativ. interogări de căutare despre tratamentul acestei boli.

Astfel, studiul adecvat al datelor și analiza lor poate forma prognoze și poate prezice declanșarea unei epidemii (și, în consecință, prevenirea acesteia) mult mai rapid decât încheierea organismelor oficiale și acțiunile acestora.

Aplicație în Rusia

Cu toate acestea, Rusia, ca întotdeauna, încetinește puțin. Astfel, însăși definiția datelor mari în Rusia a apărut cu nu mai mult de 5 ani în urmă (vorbesc despre companii obișnuite acum).

Și asta în ciuda faptului că aceasta este una dintre piețele cu cea mai rapidă creștere din lume (drogurile și armele fumează nervos pe margine), deoarece în fiecare an piața de software pentru colectarea și analiza big data crește cu 32%.

Pentru a caracteriza piața de date mari din Rusia, îmi amintesc o glumă veche. O întâlnire mare este ca și cum ai face sex înainte de a împlini 18 ani. Toată lumea vorbește despre asta, există multă hype în jurul lui și puțină acțiune reală și tuturor le este rușine să recunoască că ei înșiși nu o fac. Într-adevăr, există multă hype în jurul acestui lucru, dar puțină acțiune reală.

Deși cunoscuta companie de cercetare Gartner a anunțat deja în 2015 că big data nu mai este o tendință în creștere (cum ar fi, de altfel, inteligența artificială), ci instrumente complet independente pentru analiza și dezvoltarea tehnologiilor avansate.

Cele mai active nișe în care se folosesc big data în Rusia sunt băncile/asigurări (nu degeaba am început articolul cu șeful Sberbank), sectorul telecomunicațiilor, retail, imobiliar și... sectorul public.

Ca exemplu, vă voi spune mai detaliat despre câteva sectoare economice care folosesc algoritmi de date mari.

1. Bănci

Să începem cu băncile și informațiile pe care le colectează despre noi și acțiunile noastre. Ca exemplu, am luat TOP 5 bănci rusești care investesc activ în big data:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Alfa Bank;
  5. Banca Tinkoff.

Este deosebit de plăcut să vezi Alfa Bank printre liderii ruși. Cel puțin, este plăcut să știi că banca, al cărei partener oficial ești, înțelege nevoia de a introduce noi instrumente de marketing în compania sa.

Dar vreau să arăt exemple de utilizare și implementare cu succes a datelor mari pe o bancă care îmi place pentru viziunea și acțiunile neconvenționale ale fondatorului ei.

Vorbesc despre Tinkoff Bank. Principala lor provocare a fost dezvoltarea unui sistem de analiză a datelor mari în timp real, datorită bazei de clienți în creștere.

Rezultate: timpul proceselor interne a fost redus de cel puțin 10 ori, iar pentru unii - de peste 100 de ori.

Ei bine, puțină distragere a atenției. Știți de ce am început să vorbesc despre trăsăturile și acțiunile neconvenționale ale lui Oleg Tinkov? Doar că, în opinia mea, ei au fost cei care l-au ajutat să se transforme dintr-un om de afaceri mediocru, dintre care sunt mii în Rusia, într-unul dintre cei mai faimoși și recunoscuți antreprenori. Pentru a confirma acest lucru, urmăriți acest videoclip neobișnuit și interesant:

2. Imobiliare

În imobiliare totul este mult mai complicat. Și acesta este exact exemplul pe care vreau să-l dau pentru a înțelege întâlnirile mari din afacerile obișnuite. Date inițiale:

  1. Volum mare de documentație text;
  2. Surse deschise (sateliți privați care transmit date despre schimbările pământului);
  3. O cantitate imensă de informații necontrolate pe Internet;
  4. Schimbări constante ale surselor și datelor.

Și pe baza acestui fapt, este necesar să se pregătească și să se evalueze valoarea unui teren, de exemplu, lângă un sat Ural. Un profesionist va lua o săptămână pentru a face acest lucru.

Societatea Rusă a Evaluatorilor și ROSEKO, care a implementat de fapt analiza de date mari folosind software, nu va dura mai mult de 30 de minute de muncă pe îndelete. Compară, o săptămână și 30 de minute. O diferență uriașă.

Instrumente de creație

Desigur, cantități uriașe de informații nu pot fi stocate și procesate simplu hard disk-uri.

A software, care structurează și analizează datele – aceasta este în general proprietate intelectuală și de fiecare dată dezvoltarea autorului. Cu toate acestea, există instrumente pe baza cărora este creată toată această frumusețe:

  • Hadoop și MapReduce;
  • baze de date NoSQL;
  • Instrumente de clasă Data Discovery.

Sincer să fiu, nu vă pot explica clar cum diferă între ele, deoarece cunoașterea și lucrul cu aceste lucruri este predat în institutele de fizică și matematică.

Atunci de ce am vorbit despre asta dacă nu am putut explica? Îți amintești, în toate filmele, hoții intră în orice bancă și văd un număr mare de tot felul de piese hardware conectate la fire? La fel este și la mare întâlnire. De exemplu, iată un model care este în prezent unul dintre liderii de pe piață.

Instrument de întâlnire mare

Costul configurației maxime ajunge la 27 de milioane de ruble pe rack. Aceasta este, desigur, versiunea deluxe. Vreau să încercați în avans crearea de date mari în afacerea dvs.

Pe scurt despre principalul lucru

S-ar putea să vă întrebați, de ce aveți nevoie, o companie mică și mijlocie, să lucrați cu date mari?

La aceasta vă voi răspunde cu un citat de la o persoană: „În viitorul apropiat, clienții vor fi în căutarea companiilor care să le înțeleagă mai bine comportamentul și obiceiurile și să li se potrivească cel mai bine.”

Dar să recunoaștem. Pentru a implementa big data într-o afacere mică, trebuie să ai nu numai bugete mari pentru dezvoltarea și implementarea de software, ci și pentru întreținerea unor specialiști, cel puțin precum un analist de big data și un administrator de sistem.

Și acum tac despre faptul că trebuie să aveți astfel de date pentru prelucrare.

BINE. Subiectul aproape nu este aplicabil pentru întreprinderile mici. Dar asta nu înseamnă că trebuie să uiți tot ce ai citit mai sus. Doar studiați nu datele dvs., ci rezultatele analizei datelor de la companii binecunoscute atât din străinătate, cât și din Rusia.

De exemplu, lanțul de vânzare cu amănuntul Target, folosind analize de date mari, a constatat că femeile însărcinate înainte de al doilea trimestru de sarcină (de la prima până la a 12-a săptămână de sarcină) cumpără în mod activ produse cu parfum ONU.

Folosind aceste date, le trimit cupoane cu reduceri pe timp limitat la produse fără parfum.

Ce se întâmplă dacă ești doar o cafenea foarte mică, de exemplu? Da, foarte simplu. Utilizați o aplicație de loialitate. Și după ceva timp și datorită informațiilor acumulate, veți putea nu numai să oferiți clienților preparate relevante pentru nevoile lor, ci și să vedeți cele mai nevândute și cu cea mai mare marjă de mâncare în doar câteva clicuri de mouse.

De aici concluzia. Este puțin probabil ca o afacere mică să implementeze date mari, dar este imperativ să se folosească rezultatele și evoluțiile altor companii.

Prefaţă

„Big data” este un termen la modă în zilele noastre, care apare la aproape toate conferințele profesionale dedicate analizei datelor, analizei predictive, data mining, CRM. Termenul este folosit în domeniile în care este relevantă lucrul cu volume calitativ mari de date, unde există o creștere constantă a vitezei fluxului de date în procesul organizațional: economie, bancar, producție, marketing, telecomunicații, analiză web, medicină etc. .

Odată cu acumularea rapidă de informații, tehnologiile de analiză a datelor se dezvoltă rapid și ele. Dacă în urmă cu câțiva ani era posibil, să zicem, doar segmentarea clienților în grupuri cu preferințe similare, acum este posibil să construim modele pentru fiecare client în timp real, analizând, de exemplu, mișcarea acestuia pe Internet pentru a căuta un anume produs. Pot fi analizate interesele consumatorului și, în conformitate cu modelul construit, se derivă reclame adecvate sau oferte specifice. De asemenea, modelul poate fi ajustat și reconstruit în timp real, ceea ce era de neconceput cu doar câțiva ani în urmă.

În domeniul telecomunicațiilor, de exemplu, tehnologia s-a dezvoltat pentru a determina locația fizică a telefoanelor mobile și a proprietarilor acestora, iar ideea descrisă în filmul științifico-fantastic Minority Report din 2002, care afișează informații publicitare în centrele comerciale, pare să fie pe cale de a deveni realitate.a luat în considerare interesele anumitor indivizi care trec pe acolo.

În același timp, există situații în care pasiunea pentru noile tehnologii poate duce la dezamăgire. De exemplu, uneori date rare ( Date rare), care oferă o perspectivă importantă asupra realității, sunt mult mai valoroase decât Date mare(Big Data), care descrie munții, adesea nu conține informații esențiale.

Scopul acestui articol este de a clarifica și reflecta asupra noilor capabilități ale Big Data și de a ilustra modul în care platforma de analiză STATISTICA StatSoft vă poate ajuta să utilizați în mod eficient Big Data pentru a optimiza procesele și pentru a rezolva probleme.

Cât de mare este Big Data?

Desigur, răspunsul corect la această întrebare ar trebui să fie „depinde...”

În discuțiile moderne, conceptul de Big Data este descris ca date în ordinea teraocteților.

În practică (dacă vorbim de gigabytes sau terabytes), astfel de date sunt ușor de stocat și gestionat folosind baze de date „tradiționale” și hardware standard (servere de baze de date).

Software STATISTICA folosește tehnologia multi-threaded pentru algoritmi de acces la date (citire), transformare și construirea de modele predictive (și scoring), astfel încât astfel de mostre de date pot fi analizate cu ușurință și nu necesită instrumente specializate.

Unele proiecte actuale StatSoft procesează mostre de ordinul a 9-12 milioane de rânduri. Să le înmulțim cu 1000 de parametri (variabile), colectați și organizați într-un depozit de date pentru a construi modele de risc sau predictive. Acest tip de fișier va avea „doar” o dimensiune de aproximativ 100 de gigaocteți. Acesta nu este, desigur, un depozit de date mic, dar dimensiunea sa nu depășește capacitățile tehnologiei standard de baze de date.

Linie de produse STATISTICA pentru analiza loturilor și construcția modelelor de punctare ( STATISTICA Enterprise), soluții în timp real ( STATISTICA Scor live), și instrumente analitice pentru crearea și gestionarea modelelor ( STATISTICA Data Miner, Decizie) scala cu ușurință pe mai multe servere cu procesoare cu mai multe nuclee.

În practică, aceasta înseamnă că o viteză suficientă a modelelor analitice (de exemplu, previziuni privind riscul de credit, probabilitatea de fraudă, fiabilitatea componentelor echipamentelor etc.) pentru a permite luarea unor decizii rapide poate fi aproape întotdeauna obținută folosind instrumente standard. STATISTICA.

De la volume mari de date la Big Data

De obicei, discuțiile despre Big Data se concentrează în jurul depozitelor de date (și analizei bazate pe astfel de depozite) care sunt mult mai mari decât doar câțiva terabytes.

În special, unele depozite de date pot crește la mii de terabytes, adică până la petabytes (1000 terabytes = 1 petabyte).

Dincolo de petaocteți, acumularea de date poate fi măsurată în exaocteți, de exemplu, în sectorul de producție din întreaga lume, s-a estimat că în 2010 s-au acumulat un total de 2 exabytes de informații noi (Manyika et al., 2011).

Există industrii în care datele sunt colectate și acumulate foarte intens.

De exemplu, într-un mediu de producție precum o centrală electrică, se generează un flux continuu de date, uneori pentru zeci de mii de parametri, în fiecare minut sau chiar în fiecare secundă.

În plus, în ultimii ani, au fost introduse așa-numitele tehnologii „rețea inteligentă”, permițând utilităților să măsoare consumul de energie electrică al gospodăriilor individuale în fiecare minut sau în fiecare secundă.

Pentru acest tip de aplicație, în care datele trebuie stocate ani de zile, datele acumulate sunt clasificate drept Extremely Big Data.

Există, de asemenea, un număr tot mai mare de aplicații Big Data în sectoarele comerciale și guvernamentale, unde volumul de date în stocare poate fi de sute de terabytes sau petabytes.

Tehnologia modernă ne permite să „urmărim” oamenii și comportamentul lor într-o varietate de moduri. De exemplu, atunci când folosim internetul, cumpărăm în magazine online sau în lanțuri mari de magazine, cum ar fi Walmart (conform Wikipedia, stocarea datelor Walmart este estimată la mai mult de 2 petaocteți) sau ne deplasăm cu telefoane mobile- lăsăm o urmă a acțiunilor noastre, ceea ce duce la acumularea de noi informații.

Diverse metode de comunicare, de la simple apeluri telefonice până la încărcarea de informații prin site-uri de rețele sociale precum Facebook (conform Wikipedia, informațiile sunt schimbate în fiecare lună la 30 de miliarde), sau partajarea videoclipurilor pe site-uri precum YouTube (Youtube susține că încarcă 24 de ore). de videoclipuri în fiecare minut; vezi Wikipedia), generând zilnic cantități uriașe de date noi.

De asemenea, tehnologiile medicale moderne generează cantități mari de date relevante pentru furnizarea de îngrijiri medicale (imagini, videoclipuri, monitorizare în timp real).

Deci, clasificarea volumelor de date poate fi reprezentată după cum urmează:

Seturi mari de date: de la 1000 megaocteți (1 gigaoctet) la sute de gigaocteți

Seturi uriașe de date: de la 1000 de gigaocteți (1 terabyte) la câțiva terabytes

Big Data: de la câțiva terabytes la sute de terabytes

Date extrem de mari: 1000 până la 10000 terabytes = 1 până la 10 petabytes

Sarcini legate de Big Data

Există trei tipuri de sarcini legate de Big Data:

1. Depozitare și gestionare

Volumele de date de sute de terabytes sau petabytes nu pot fi stocate și gestionate cu ușurință folosind bazele de date relaționale tradiționale.

2. Informații nestructurate

Majoritatea datelor Big Data sunt nestructurate. Acestea. cum poți organiza text, videoclipuri, imagini etc.?

3. Analiza Big Data

Cum se analizează informațiile nestructurate? Cum să creați rapoarte simple bazate pe Big Data, să construiți și să implementați modele predictive aprofundate?

Stocarea și gestionarea datelor mari

Big Data este de obicei stocată și organizată în sisteme de fișiere distribuite.

În termeni generali, informațiile sunt stocate pe mai multe (uneori mii) hard disk-uri pe computere standard.

Așa-numita „hartă” ține evidența unde (pe ce computer și/sau disc) este stocată o anumită informație.

Pentru a asigura toleranța și fiabilitatea la erori, fiecare informație este de obicei stocată de mai multe ori, de exemplu de trei ori.

Deci, de exemplu, să presupunem că ați colectat tranzacții individuale într-un mare rețeaua de vânzare cu amănuntul magazine. Detaliile fiecărei tranzacții vor fi stocate pe servere diferiteși hard disk-uri și indexurile „hartă” în care sunt stocate exact informațiile despre tranzacția corespunzătoare.

Utilizarea hardware standard și instrumente software open source pentru a gestiona acest sistem de fișiere distribuit (de ex. Hadoop), este relativ ușor să implementați depozite de date fiabile la scară petabyte.

Informații nestructurate

Majoritatea informațiilor colectate într-un sistem de fișiere distribuite constau din date nestructurate, cum ar fi text, imagini, fotografii sau videoclipuri.

Acest lucru are avantajele și dezavantajele sale.

Avantajul este că capacitatea de a stoca date mari vă permite să stocați „toate datele” fără să vă faceți griji cu privire la care parte a datelor este relevantă pentru analiza ulterioară și luarea deciziilor.

Dezavantajul este că în astfel de cazuri, să extragă Informatii utile este necesară postprocesarea acestor cantități uriașe de date.

În timp ce unele dintre aceste operații pot fi simple (de exemplu, calcule simple etc.), altele necesită algoritmi mai complecși care trebuie proiectați special pentru munca eficienta pe un sistem de fișiere distribuit.

Un director a spus odată StatSoft că „a cheltuit o avere pe IT și stocarea datelor și încă nu a început să câștige bani”, deoarece nu s-a gândit la cum să folosească cel mai bine aceste date pentru a îmbunătăți activitatea de bază.

Deci, în timp ce volumul de date poate crește exponențial, capacitatea de a extrage informații și de a acționa asupra acestor informații este limitată și va atinge asimptotic o limită.

Este important ca metodele și procedurile pentru construirea, actualizarea modelelor și automatizarea procesului decizional să fie dezvoltate împreună cu sistemele de stocare a datelor pentru a se asigura că astfel de sisteme sunt utile și benefice întreprinderii.

Analiza Big Data

Aceasta este problema cu adevărat mare a analizei Big Data nestructurate: cum să o analizăm în mod util. S-a scris mult mai puțin despre această problemă decât despre stocarea datelor și tehnologiile de gestionare a Big Data.

Există o serie de aspecte de luat în considerare.

Hartă-Reducere

Când se analizează sute de teraocteți sau petaocteți de date, nu este posibil să extrageți datele într-o altă locație pentru analiză (de exemplu, STATISTICA Enterprise Analysis Server).

Procesul de transfer de date pe canale către un server sau servere separate (pentru procesare paralelă) va dura prea mult și va necesita prea mult trafic.

În schimb, calculele analitice trebuie efectuate fizic aproape de locul în care sunt stocate datele.

Algoritmul Map-Reduce este un model pentru calculul distribuit. Principiul funcționării sale este următorul: datele de intrare sunt distribuite nodurilor de lucru (noduri individuale) ale sistemului de fișiere distribuit pentru prelucrare preliminară (pasul hărții) și, apoi, datele deja preprocesate sunt pliate (combinate) (pasul de reducere) .

Astfel, pentru, de exemplu, a calcula suma finală, algoritmul va calcula paralel subtotaluri în fiecare dintre nodurile sistemului de fișiere distribuit și apoi va însuma aceste subtotaluri.

Există o cantitate imensă de informații disponibile pe Internet despre modul în care puteți efectua diverse calcule folosind modelul de reducere a hărții, inclusiv pentru analiza predictivă.

Statistici simple, Business Intelligence (BI)

Pentru a crea rapoarte BI simple, există multe produse open source care vă permit să calculați sume, medii, proporții etc. folosind map-reduce.

Acest lucru face foarte ușor să obțineți numărări precise și alte statistici simple pentru raportare.

Modelare predictivă, statistici avansate

La prima vedere, poate părea că construirea modelelor predictive într-un sistem de fișiere distribuit este mai dificilă, dar nu este deloc așa. Să luăm în considerare etapele preliminare ale analizei datelor.

Pregătirea datelor. Cu ceva timp în urmă, StatSoft a întreprins o serie de proiecte mari și de succes care implică seturi de date foarte mari care descriu datele procesului minut cu minut de la o centrală electrică. Scopul analizei a fost îmbunătățirea eficienței centralei și reducerea emisiilor (Electric Power Research Institute, 2009).

Este important ca, deși seturile de date pot fi foarte mari, informațiile pe care le conțin sunt mult mai mici ca dimensiune.

De exemplu, în timp ce datele sunt acumulate la fiecare secundă sau în fiecare minut, mulți parametri (temperaturile gazului și cuptorului, debitele, pozițiile clapetelor etc.) rămân stabili pe intervale lungi de timp. Cu alte cuvinte, datele înregistrate în fiecare secundă sunt practic repetări ale aceleiași informații.

Astfel, este necesar să se efectueze agregarea de date „inteligentă”, obținând date pentru modelare și optimizare care să conțină doar informațiile necesare despre schimbările dinamice care afectează eficiența centralei și cantitatea de emisii.

Clasificarea textelor și preprocesarea datelor. Să ilustrăm încă o dată cum seturi mari de date pot conține informații mult mai puțin utile.

De exemplu, StatSoft a fost implicat în proiecte legate de extragerea de text a tweet-urilor care reflectă cât de mulțumiți sunt pasagerii de companiile aeriene și de serviciile lor.

Deși un număr mare de tweet-uri relevante au fost preluate în fiecare oră și zilnic, sentimentele exprimate au fost destul de simple și monotone. Majoritatea mesajelor sunt plângeri și mesaje scurte cu o singură propoziție despre „experiențe proaste”. Mai mult, numărul și „puterea” acestor sentimente sunt relativ stabile în timp și în probleme specifice (de exemplu, bagaje pierdute, mâncare săracă, anulări de zboruri).

Astfel, reducerea tweet-urilor reale la sentimentul în curând (score) folosind tehnici de extragere a textului (cum ar fi cele implementate în STATISTICA Text Miner) are ca rezultat o cantitate mult mai mică de date, care pot fi apoi asociate cu ușurință cu datele structurate existente (vânzări reale de bilete sau informații despre călători frecvent). Analiza vă permite să împărțiți clienții în grupuri și să le studiați reclamațiile tipice.

Există multe instrumente disponibile pentru a realiza această agregare a datelor (cum ar fi scorurile de sentiment) pe un sistem de fișiere distribuit, ceea ce face acest proces analitic ușor de implementat.

Construire modele

Adesea, provocarea este de a construi rapid modele precise pentru datele stocate pe un sistem de fișiere distribuit.

Există implementări de reducere a hărților pentru diverși algoritmi de extragere a datelor/analitică predictivă, potriviti pentru procesarea paralelă la scară largă a datelor pe un sistem de fișiere distribuit (care poate fi acceptat folosind platforma STATISTICA StatSoft).

Cu toate acestea, tocmai pentru că ați procesat o cantitate atât de mare de date, sunteți încrezător că modelul rezultat este cu adevărat mai precis?

De fapt, este probabil mai convenabil să construiești modele pentru segmente mici de date pe un sistem de fișiere distribuit.

După cum afirmă un raport Forrester recent, „Doi plus doi egal cu 3,9 este de obicei destul de bun” (Hopkins & Evelson, 2011).

Precizia statistică și matematică este că un model de regresie liniară care include, de exemplu, 10 predictori bazați pe un model realizat corect eşantionarea probabilă din 100.000 de observații vor fi la fel de precise ca un model construit pe 100 de milioane de observații.

(literalmente - Date mare)? Să ne uităm mai întâi la dicționarul Oxford:

Date- cantități, semne sau simboluri pe care le operează un calculator și care pot fi stocate și transmise sub formă de semnale electrice, înregistrate pe suporturi magnetice, optice sau mecanice.

Termen Date mare folosit pentru a descrie un set mare de date care crește exponențial în timp. Pentru a procesa o cantitate atât de mare de date, învățarea automată este indispensabilă.

Beneficiile pe care le oferă Big Data:

  1. Colectarea datelor din diverse surse.
  2. Îmbunătățirea proceselor de afaceri prin analize în timp real.
  3. Stocarea unor cantități uriașe de date.
  4. Perspective. Big Data este mai perspicace în informațiile ascunse prin date structurate și semi-structurate.
  5. Big Data vă ajută să reduceți riscurile și să luați decizii inteligente cu analiza de risc adecvată

Exemple de date mari

Bursa de Valori din New York generează zilnic 1 terabyte datele de tranzacționare pentru sesiunea trecută.

Rețelele de socializare: statisticile arată că baza de date Date Facebookîncărcat zilnic 500 terabytes date noi sunt generate în principal din cauza încărcării de fotografii și videoclipuri pe serverele rețelelor sociale, mesaje, comentarii sub postări și așa mai departe.

Motor turboreactor generează 10 terabytes date la fiecare 30 de minute în timpul zborului. Deoarece mii de zboruri sunt efectuate în fiecare zi, volumul de date ajunge la petabytes.

Clasificarea Big Data

Formulare de date mari:

  • Structurat
  • Nestructurat
  • Semi-structurat

Forma structurata

Datele care pot fi stocate, accesate și prelucrate într-un formular cu format fix se numesc structurate. De-a lungul timpului, informatica a făcut progrese mari în îmbunătățirea tehnicilor de lucru cu acest tip de date (unde formatul este cunoscut dinainte) și a învățat cum să beneficieze de el. Cu toate acestea, astăzi există deja probleme asociate cu creșterea volumelor la dimensiuni măsurate în intervalul mai multor zettabytes.

1 zettabyte este egal cu un miliard de terabytes

Privind aceste cifre, este ușor de observat veridicitatea termenului Big Data și dificultățile asociate cu procesarea și stocarea unor astfel de date.

Datele stocate într-o bază de date relațională sunt structurate și arată ca, de exemplu, tabele ale angajaților companiei

Formă nestructurată

Datele cu structură necunoscută sunt clasificate ca nestructurate. Pe lângă dimensiunile mari, această formă se caracterizează printr-o serie de dificultăți în procesarea și extragerea informațiilor utile. Un exemplu tipic de date nestructurate este o sursă eterogenă care conține o combinație de fișiere text simple, imagini și videoclipuri. Astăzi, organizațiile au acces la cantități mari de date brute sau nestructurate, dar nu știu cum să extragă valoare din acestea.

Formă semistructurată

Această categorie conține ambele dintre cele descrise mai sus, astfel încât datele semi-structurate au o anumită formă, dar nu sunt definite de fapt de tabelele din bazele de date relaționale. Un exemplu al acestei categorii sunt datele personale prezentate într-un fișier XML.

Prashant RaoMasculin35 Seema R.Femeie41 Satish ManeMasculin29 Subrato RoyMasculin26 Ieremia J.Masculin35

Caracteristicile Big Data

Creșterea Big Data în timp:

Culoarea albastră reprezintă datele structurate (date Enterprise), care sunt stocate în baze de date relaționale. Alte culori indică date nestructurate din diferite surse (telefonie IP, dispozitive și senzori, rețele sociale și aplicații web).

Potrivit Gartner, Big Data variază în ceea ce privește volumul, rata de generare, varietate și variabilitate. Să aruncăm o privire mai atentă asupra acestor caracteristici.

  1. Volum. Termenul de Big Data în sine este asociat marime mare. Mărimea datelor este o măsură critică în determinarea valorii potențiale de extras. În fiecare zi, 6 milioane de oameni folosesc media digitală, generând aproximativ 2,5 chintilioane de octeți de date. Prin urmare, volumul este prima caracteristică de luat în considerare.
  2. Diversitate- următorul aspect. Se referă la surse eterogene și la natura datelor, care pot fi fie structurate, fie nestructurate. Anterior, foile de calcul și bazele de date erau singurele surse de informații luate în considerare în majoritatea aplicațiilor. Astăzi, datele sunt sub formă de e-mailuri, fotografii, videoclipuri, Fișiere PDF, audio este de asemenea luat în considerare în aplicațiile analitice. Această varietate de date nestructurate duce la probleme în stocare, extragere și analiză: 27% dintre companii nu sunt sigure că lucrează cu datele corecte.
  3. Viteza de generare. Cât de repede sunt acumulate și procesate datele pentru a îndeplini cerințele determină potențialul. Viteza determină viteza fluxului de informații din surse - procese de afaceri, jurnalele de aplicații, rețele sociale și site-uri media, senzori, dispozitive mobile. Fluxul de date este imens și continuu în timp.
  4. Variabilitate descrie variabilitatea datelor în anumite momente în timp, ceea ce complică procesarea și gestionarea. De exemplu, majoritatea datelor sunt de natură nestructurată.

Analiza Big Data: care sunt beneficiile big data

Promovarea bunurilor si serviciilor: Accesul la date din motoarele de căutare și site-uri precum Facebook și Twitter permite companiilor să dezvolte mai precis strategii de marketing.

Îmbunătățirea serviciului pentru clienți: Sistemele tradiționale de feedback ale clienților sunt înlocuite cu altele noi care utilizează Big Data și procesarea limbajului natural pentru a citi și evalua feedback-ul clienților.

Calculul riscului asociate cu lansarea unui nou produs sau serviciu.

Eficienta operationala: big data este structurat pentru a extrage rapid informațiile necesare și a produce rapid rezultate precise. Această combinație de Big Data și tehnologii de stocare ajută organizațiile să-și optimizeze munca cu informații rar utilizate.

Big data este un termen larg pentru strategiile și tehnologiile neconvenționale necesare pentru a colecta, organiza și procesa informații din seturi mari de date. Deși problema lucrului cu date mai mari decât putere de calcul sau capabilitățile de stocare ale unui singur computer nu sunt noi, sfera și valoarea acestui tip de calcul s-au extins semnificativ în ultimii ani.

Acest articol vă va prezenta conceptele de bază pe care le puteți întâlni în timp ce explorați datele mari. Se discută, de asemenea, unele dintre procesele și tehnologiile care sunt utilizate în prezent în acest domeniu.

Ce este big data?

O definiție precisă a „big data” este dificil de articulat, deoarece proiectele, furnizorii, practicienii și profesioniștii în afaceri o folosesc în moduri foarte diferite. Având în vedere acest lucru, big data poate fi definită ca:

  • Seturi mari de date.
  • O categorie de strategii și tehnologii de calcul care sunt utilizate pentru a procesa seturi mari de date.

În acest context, „set mare de date” înseamnă un set de date prea mare pentru a fi procesat sau stocat folosind instrumente tradiționale sau pe un singur computer. Aceasta înseamnă că scara generală a seturilor mari de date se schimbă constant și poate varia semnificativ de la caz la caz.

Sisteme de date mari

Cerințele de bază pentru lucrul cu date mari sunt aceleași ca pentru orice alt set de date. Cu toate acestea, scara masivă, viteza de procesare și caracteristicile datelor întâlnite la fiecare pas al procesului prezintă noi provocări semnificative pentru dezvoltarea instrumentelor. Scopul majorității sistemelor de date mari este de a înțelege și comunica cu volume mari de date eterogene, ceea ce nu ar fi posibil folosind metode convenționale.

În 2001, Doug Laney de la Gartner a introdus „cele trei V ale datelor mari” pentru a descrie unele dintre caracteristicile care disting procesarea datelor mari de alte tipuri de procesare a datelor:

  1. Volum (volum de date).
  2. Viteza (viteza de acumulare si procesare a datelor).
  3. Varietate (varietate de tipuri de date prelucrate).

Volumul datelor

Amploarea absolută a informațiilor procesate ajută la definirea sistemelor de date mari. Aceste seturi de date pot fi ordine de mărime mai mari decât seturile de date tradiționale, necesitând o atenție mai mare în fiecare etapă de procesare și stocare.

Deoarece cererile depășesc capacitățile unui singur computer, se pune adesea problema punerii în comun, distribuirii și coordonării resurselor din grupuri de computere. Managementul clusterelor și algoritmii care pot împărți sarcinile în părți mai mici devin din ce în ce mai importanți în acest domeniu.

Viteza de acumulare și procesare

A doua caracteristică care distinge semnificativ datele mari de alte sisteme de date este viteza cu care informațiile se deplasează prin sistem. Datele intră adesea într-un sistem din mai multe surse și trebuie procesate în timp real pentru a actualiza starea curentă a sistemului.

Acest accent pe feedback-ul instantaneu i-a determinat pe mulți practicieni să renunțe la abordarea orientată pe loturi în favoarea unui sistem de streaming în timp real. Datele sunt adăugate, procesate și analizate în mod constant pentru a ține pasul cu afluxul de informații noi și pentru a oferi informații valoroase devreme, atunci când sunt cele mai relevante. Acest lucru necesită sisteme robuste cu componente foarte disponibile pentru a proteja împotriva defecțiunilor de-a lungul conductei de date.

Varietate de tipuri de date prelucrate

Există multe provocări unice în big data datorită gamei largi de surse procesate și calității relative.

Datele pot proveni de la sisteme interne, cum ar fi jurnalele de aplicații și servere, de pe canalele de social media și alte API-uri externe, de la senzorii dispozitivelor fizice și alte surse. Scopul sistemelor de date mari este de a procesa date potențial utile, indiferent de origine, prin combinarea tuturor informațiilor într-un singur sistem.

De asemenea, formatele și tipurile media pot varia semnificativ. Fișierele media (imagini, video și audio) sunt combinate cu fișiere text, jurnale structurate etc. Sistemele tradiționale de procesare a datelor se așteaptă ca datele să intre în conductă deja etichetate, formatate și organizate, dar sistemele de date mari de obicei ingerează și stochează date, încercând să salveze. lor starea initiala. În mod ideal, orice transformări sau modificări ale datelor brute vor avea loc în memorie în timpul procesării.

Alte caracteristici

De-a lungul timpului, practicienii și organizațiile au propus extinderi ale celor „trei V” inițiale, deși aceste inovații tind să descrie problemele mai degrabă decât caracteristicile datelor mari.

  • Veracitatea: varietatea surselor și complexitatea prelucrării pot duce la probleme în evaluarea calității datelor (și, prin urmare, a calității analizei rezultate).
  • Variabilitate: Modificările datelor duc la variații mari de calitate. Pot fi necesare resurse suplimentare pentru a identifica, procesa sau filtra datele de calitate scăzută pentru a îmbunătăți calitatea datelor.
  • Valoare: scopul final al datelor mari este valoarea. Uneori, sistemele și procesele sunt foarte complexe, ceea ce face dificilă utilizarea datelor și extragerea valorilor reale.

Ciclul de viață al datelor mari

Deci, cum sunt procesate de fapt datele mari? Există mai multe abordări diferite ale implementării, dar există aspecte comune în strategii și software.

  • Introducerea datelor în sistem
  • Salvarea datelor în stocare
  • Calcularea și analiza datelor
  • Vizualizarea rezultatelor

Înainte de a privi în detaliu aceste patru categorii de fluxuri de lucru, să vorbim despre cluster computing, o strategie importantă folosită de multe instrumente de date mari. Configurarea unui cluster de calcul este tehnologia de bază utilizată în fiecare etapă a ciclului de viață.

Cluster computing

Datorită calității datelor mari, computerele individuale nu sunt potrivite pentru prelucrarea datelor. Clusterele sunt mai potrivite pentru aceasta, deoarece pot face față nevoilor de stocare și de calcul ale datelor mari.

Software-ul de grupare a datelor mari combină resursele multor mașini mici, urmărind să ofere o serie de beneficii:

  • Resurse Pooling: Procesarea unor seturi mari de date necesită cantități mari de CPU și resurse de memorie, precum și mult spațiu de stocare disponibil.
  • Disponibilitate ridicată: Clusterele pot oferi diferite niveluri toleranță la erori și disponibilitate, astfel încât defecțiunile hardware sau software să nu afecteze accesul și procesarea datelor. Acest lucru este deosebit de important pentru analiza în timp real.
  • Scalabilitate: clusterele acceptă scalare orizontală rapidă (adăugarea de noi mașini la cluster).

Pentru a lucra într-un cluster, aveți nevoie de instrumente pentru a gestiona apartenența la cluster, pentru a coordona distribuirea resurselor și pentru a programa lucrul cu noduri individuale. Apartenența la cluster și alocarea de resurse pot fi gestionate folosind programe precum Hadoop YARN (Yet Another Resource Negotiator) sau Apache Mesos.

Un cluster de calcul prefabricat acționează adesea ca o coloană vertebrală cu care alt software interacționează pentru a procesa date. Mașinile care participă la un cluster de calcul sunt, de asemenea, asociate de obicei cu gestionarea unui sistem de stocare distribuit.

Primirea datelor

Ingestia de date este procesul de adăugare a datelor brute în sistem. Complexitatea acestei operațiuni depinde în mare măsură de formatul și calitatea surselor de date și de măsura în care datele îndeplinesc cerințele de prelucrare.

Puteți adăuga date mari în sistem folosind instrumente speciale. Tehnologii precum Apache Sqoop pot prelua datele existente din bazele de date relaționale și le pot adăuga la un sistem de date mari. De asemenea, puteți utiliza Apache Flume și Apache Chukwa - proiecte concepute pentru agregarea și importarea jurnalelor de aplicații și server. Brokerii de mesaje precum Apache Kafka pot fi utilizați ca o interfață între diferiți generatori de date și un sistem de date mari. Framework-uri precum Gobblin pot combina și optimiza rezultatele tuturor instrumentelor la sfârșitul conductei.

În timpul ingerării datelor, de obicei se efectuează analiza, sortarea și etichetarea. Acest proces este uneori numit ETL (extract, transform, load), care înseamnă extrage, transformare și încărcare. Deși termenul se referă de obicei la procesele vechi de depozitare a datelor, uneori este aplicat sistemelor de date mari. Operațiunile tipice includ modificarea datelor primite pentru formatare, clasificare și etichetare, filtrare sau verificarea conformității datelor.

În mod ideal, datele primite sunt supuse unei formatări minime.

Stocare a datelor

Odată primite, datele se mută către componentele care gestionează stocarea.

De obicei, sistemele de fișiere distribuite sunt folosite pentru a stoca date brute. Soluții precum HDFS de la Apache Hadoop permit scrierea unor cantități mari de date pe mai multe noduri dintr-un cluster. Acest sistem oferă acces la resurse de calcul la date, poate încărca date în RAM de cluster pentru operațiuni de memorie și poate gestiona defecțiunile componentelor. Alte sisteme de fișiere distribuite pot fi utilizate în locul HDFS, inclusiv Ceph și GlusterFS.

Datele pot fi importate și în altele sisteme distribuite pentru un acces mai structurat. Bazele de date distribuite, în special bazele de date NoSQL, sunt potrivite pentru acest rol, deoarece pot gestiona date eterogene. Există multe tipuri variate baze de date distribuite, alegerea depinde de modul în care doriți să organizați și să prezentați datele.

Calcularea și analiza datelor

Odată ce datele sunt disponibile, sistemul poate începe procesarea. Stratul de calcul este poate cea mai liberă parte a sistemului, deoarece cerințele și abordările de aici pot diferi semnificativ în funcție de tipul de informații. Datele sunt adesea procesate în mod repetat, fie folosind un singur instrument, fie folosind un număr de instrumente pentru a procesa diferite tipuri de date.

Procesarea în loturi este una dintre metodele de calcul pe seturi mari de date. Acest proces implică împărțirea datelor în părți mai mici, programarea fiecărei piese pentru a fi procesată pe o mașină separată, rearanjarea datelor pe baza rezultatelor intermediare și apoi calcularea și colectarea rezultatului final. MapReduce de la Apache Hadoop folosește această strategie. Procesarea în lot este cea mai utilă atunci când lucrați cu seturi de date foarte mari care necesită destul de mult calcul.

Alte sarcini de lucru necesită procesare în timp real. Cu toate acestea, informațiile trebuie procesate și pregătite imediat, iar sistemul trebuie să răspundă în timp util pe măsură ce noi informații devin disponibile. O modalitate de a implementa procesarea în timp real este procesarea unui flux continuu de date constând din elemente individuale. O altă caracteristică comună a procesoarelor în timp real este că calculează datele în memoria cluster, evitând necesitatea scrierii pe disc.

Apache Storm, Apache Flink și Apache Spark oferă diferite moduri de implementare a procesării în timp real. Aceste tehnologii flexibile vă permit să alegeți cea mai bună abordare pentru fiecare problemă individuală. În general, procesarea în timp real este cea mai potrivită pentru analizarea unor bucăți mici de date care se modifică sau sunt adăugate rapid în sistem.

Toate aceste programe sunt cadre. Cu toate acestea, există multe alte moduri de a calcula sau analiza datele într-un sistem de date mari. Aceste instrumente se conectează adesea la cadrele de mai sus și oferă interfețe suplimentare pentru a interacționa cu straturile subiacente. De exemplu, Apache Hive oferă o interfață de depozit de date pentru Hadoop, Apache Pig oferă o interfață de interogare și interacțiuni cu date SQL furnizat folosind Apache Drill, Apache Impala, Apache Spark SQL și Presto. Învățarea automată folosește Apache SystemML, Apache Mahout și MLlib de la Apache Spark. Pentru programarea analitică directă, care este susținută pe scară largă de ecosistemul de date, sunt utilizate R și Python.

Vizualizarea rezultatelor

Adesea, recunoașterea tendințelor sau modificărilor datelor în timp este mai importantă decât valorile rezultate. Vizualizarea datelor este una dintre cele mai multe moduri utile identificarea tendințelor și organizarea unui număr mare de puncte de date.

Procesarea în timp real este utilizată pentru a vizualiza valorile aplicației și ale serverului. Datele se schimbă frecvent, iar variațiile mari ale valorilor indică de obicei un impact semnificativ asupra sănătății sistemelor sau organizațiilor. Proiecte precum Prometheus pot fi folosite pentru a procesa fluxuri de date și serii cronologice și pentru a vizualiza aceste informații.

O modalitate populară de a vizualiza datele este stiva elastică, cunoscută anterior ca stiva ELK. Logstash este folosit pentru colectarea datelor, Elasticsearch pentru indexarea datelor și Kibana pentru vizualizare. Stiva Elastic poate lucra cu date mari, poate vizualiza rezultatele calculelor sau poate interacționa cu valorile brute. O stivă similară poate fi obținută prin combinarea Apache Solr pentru indexare cu un furk de Kibana numit Banana pentru vizualizare. Acest teanc se numește Mătase.

O altă tehnologie de vizualizare pentru interacțiunea cu datele sunt documentele. Astfel de proiecte permit explorarea și vizualizarea interactivă a datelor într-un format ușor de partajat și prezentat. Exemple populare de acest tip de interfață sunt Jupyter Notebook și Apache Zeppelin.

Glosar de date mari

  • Big data este un termen larg pentru seturi de date care nu pot fi procesate corect calculatoare obișnuite sau instrumente datorită volumului, vitezei de sosire și varietății lor. Termenul este, de asemenea, aplicat în mod obișnuit tehnologiilor și strategiilor de lucru cu astfel de date.
  • Procesarea în loturi este o strategie de calcul care implică prelucrarea datelor în seturi mari. De obicei, această metodă este ideală pentru a lucra cu date non-urgente.
  • Calcularea în cluster este practica de a pune în comun resursele mai multor mașini și de a gestiona capacitățile lor partajate pentru a îndeplini sarcini. În acest caz, este necesar un nivel de management al clusterului care să gestioneze comunicarea între nodurile individuale.
  • Un lac de date este un depozit mare de date colectate într-o stare relativ brută. Termenul este adesea folosit pentru a se referi la date mari nestructurate și care se schimbă frecvent.
  • Exploatarea datelor este un termen larg pentru diferite practici de găsire a modelelor în seturi mari de date. Este o încercare de a organiza o masă de date într-un set de informații mai ușor de înțeles și mai coerent.
  • Un depozit de date este un depozit mare și organizat pentru analiză și raportare. Spre deosebire de un lac de date, un depozit este format din date formatate și bine organizate care sunt integrate cu alte surse. Depozitele de date sunt adesea menționate în legătură cu big data, dar sunt adesea componente ale sistemelor convenționale de prelucrare a datelor.
  • ETL (extragere, transformare și încărcare) – extragerea, transformarea și încărcarea datelor. Acesta este procesul de obținere și pregătire a datelor brute pentru utilizare. Este asociat cu depozitele de date, dar caracteristicile acestui proces se găsesc și în conductele sistemelor de date mari.
  • Hadoop este un proiect Apache open source pentru big data. Este alcătuit dintr-un sistem de fișiere distribuit numit HDFS și un cluster și planificator de resurse numit YARN. Capacitățile de procesare în lot sunt furnizate de motorul de calcul MapReduce. Implementările moderne Hadoop pot rula alte sisteme de calcul și analiză alături de MapReduce.
  • Calculul în memorie este o strategie care implică mutarea întregilor seturi de date de lucru în memoria clusterului. Calculele intermediare nu sunt scrise pe disc, ci sunt stocate în memorie. Acest lucru oferă sistemelor un avantaj uriaș de viteză față de sistemele legate de I/O.
  • Învățarea automată este studiul și practica de proiectare a sistemelor care pot învăța, ajusta și îmbunătăți pe baza datelor furnizate acestora. Aceasta înseamnă de obicei implementarea algoritmilor predictivi și statistici.
  • Map reduce (a nu se confunda cu MapReduce de la Hadoop) este un algoritm de planificare a clusterelor de calcul. Procesul presupune împărțirea sarcinii între noduri și obținerea de rezultate intermediare, amestecarea și apoi scoaterea unei singure valori pentru fiecare set.
  • NoSQL este un termen larg care se referă la bazele de date concepute în afara modelului relațional tradițional. Bazele de date NoSQL sunt potrivite pentru big data datorită flexibilității și arhitecturii lor distribuite.
  • Procesarea fluxului este practica de a calcula bucăți individuale de date pe măsură ce acestea se deplasează printr-un sistem. Acest lucru permite analiza datelor în timp real și este potrivit pentru procesarea tranzacțiilor sensibile la timp, folosind metrici de mare viteză.
Etichete: ,