Data cleansing process

Tehnologii

de Aurel Mareș , Ludan Engineering

Data cleansing process

Unul dintre cele mai importante active ale unei companii este informația. Abilitatea unei companii de a concura, de a se adapta și de a se dezvolta într-un climat de afaceri cu schimbări rapide depinde în mare parte de cât de bine utilizează informațiile în luarea deciziilor.

Ce reprezintă datele: un activ construit conform standardelor internaţionale (figura 1)

  • În acest moment, diferite articole MRO (Maintenance, Repair and Operations), precum și echipamentele pot fi achiziționate prin specificarea standardelor internaționale relevante în contractele cu furnizorii;  
  • Datele sunt asemenea oricărui alt activ, sunt acoperite de standardele internaționale, au un cost de achiziție, instalare și întreținere/gestionare.

  • FIGURA 1

Indiferent de modul în care sunt colectate datele, întotdeauna va exista un anumit nivel de eroare. Datele „nesigure“ sau „murdare” se referă la date care sunt pline de inconsecvențe.

  • FIGURA 2

Deși unele discrepanțe sunt legitime, deoarece reflectă variații în context, altele ar reflecta, probabil, o eroare de măsurare sau intrare. Acestea pot varia de la greșeli datorate erorii umane, sisteme de înregistrare prost concepute sau pur și simplu pentru că există un control incomplet asupra formatului și tipului de date importate din surse externe de date. Asemenea discrepanțe provoacă probleme atunci când se încearcă efectuarea unor analize, rapoarte, achiziții bazate pe acestea. Înainte de prelucrarea datelor pentru analize, rapoarte, achiziții, trebuie să se acorde o atenție sporită asigurării exactității, consistenței și coerenței datelor.

Curățarea datelor (data cleansing) este procesul de identificare și corectare (sau eliminare) a înregistrărilor corupte sau inexacte dintr-un anumit set de înregistrări, tabele sau baze de date. Folosit în principal pentru baze de date, termenul face referire la identificarea părților de date incomplete, incorecte, inexacte, irelevante etc., urmată de înlocuirea, modificarea sau ștergerea acestor date „murdare”. Procesul de curățarea datelor este ilustrat în (figura 2).

Cei 4 paşi ai procesului de curăţare a datelor (data cleansing steps) (figura 3)

Analiza presupune căutarea în mod sistematic a elementelor suspecte în bazele de date sau în seturile de date supuse analizei.

Diagnoza (identificarea naturii datelor defectuoase) și corectarea (ștergerea, editarea sau păstrarea datelor în starea lor inițială) sunt etape ale procesului de curățare a datelor ce necesită o înțelegere aprofundată a tuturor tipurilor și surselor de erori posibile din timpul proceselor de colectare și de introducere a datelor.

Documentarea modificărilor presupune înregistrarea tuturor erorilor identificate, a alterării datelor, a completărilor și a verificării erorilor, oferind posibilitatea revenirii la valorile inițiale, dacă este cazul. Principalele probleme legate de inventarierea materialelor/itemilor întâlnite în bazele de date „murdare” sunt următoarele:

  • Lipsa unui model de specificație aferent materialelor/ itemilor;
  • Lipsa împărțirii materialelor/itemilor pe categorii – înregistrări prea multe și irelevante;
  • Inexistența conceptului de catalog de materiale/ dicționar itemi;
  • Surse separate de creare a înregistrărilor – lipsa unui proces de standardizare sau a unor tool-uri;
  • Descrieri de materiale/itemi nestandardizate sau incomplete;
  • Metode de ambalare și specificații diferite, în funcție de destinația materialelor/itemilor;
  • Alocarea de noi coduri de materiale/itemi pentru mici diferențe;
  • Materiale neidentificabile.

Efectele/costurile rezultate din specificațiile și datele inconsistente sunt reprezentate schematic în (figura 4).

  • FIGURA 3

  • FIGURA 4

Clasificarea şi identificarea

Clasificare – gruparea itemilor comuni în vederea analizării acestora (de exemplu, clasificare după: codul UNSPSC (United Nations Standard Products and Services Code), sisteme internaționale armonizate de codificare și descriere a mărfurilor etc.). O prezentare schematică a nivelului de detaliere este în (figura 5).

  • FIGURA 5

Identificare – descrierea unui singur item. (de exemplu, folosind un catalog de descrieri conform ISO 8000). Procesul de identificare este prezentat în figura 6.

Apare cu siguranță întrebarea:Ce este de făcut? / Direcții de urmat

În primul rând, trebuie definite o serie de principii de clasificare și o metodologie a acestui proces.Principiile sunt prezentate în figura 6.

  • FIGURA 6.1.

  • FIGURA 6.2.

  • FIGURA 6.3.

De asemenea, trebuie definit un șablon pentru clasificarea datelor (ilustrat în figura 7). Ce urmărim prin procesul de curățare a datelor? Un rezumat al scopului este prezentat în figura 8. Cum ar arăta o metodologie a procesului de curățare date? Este prezentată în figura 9.

  • FIGURA 7

  • ​​FIGURA 8

  • FIGURA 9

Și, desigur, end user-ul ar dori să vadă, într-un singur tablou, întregul proces de curățare date. Este prezentat ilustrativ în figura 10.

  • FIGURA 10

Accept cookie

www.ttonline.ro utilizează fişiere de tip cookie pentru a personaliza și îmbunătăți experiența ta pe Website-ul nostru.

Te informăm că ne-am actualizat politicile pentru a integra în acestea și în activitatea curentă a www.ttonline.ro cele mai recente modificări propuse de Regulamentul (UE) 2016/679 privind protecția persoanelor fizice în ceea ce privește prelucrarea datelor cu caracter personal și privind libera
circulație a acestor date. Înainte de a continua navigarea pe Website-ul nostru, te rugăm să aloci timpul necesar pentru a citi și înțelege conținutul Politicii de Cookie.

Prin continuarea navigării pe Website-ul nostru confirmi acceptarea utilizării fişierelor de tip cookie conform Politicii de Cookie. Îți mulțumim pentru acest accept și nu uita totuși că poți modifica în orice moment setările acestor fişiere cookie urmând instrucțiunile din Politica de Cookie.