sabato 5 giugno 2010

Tabelle a confronto…

Differenze tra tabella a doppia entrata e tabella di contingenza…

La tabella a doppia entrata è una tabella a due variabili. Permette il confronto fra due entità, una posta in ascissa e l'altra in ordinata, e fra ciascuno degli elementi e/o delle parti che le costituiscono.
Si applica nell'analisi di due contesti al fine di individuare le relazioni esistenti o realizzabili fra essi. Questo tipo di tabella (crosstabulation) descrive la distribuzione congiunta di due proprietà. La tabella è costituita da m righe e n colonne. All’incrocio di righe e colonne vi sono le celle, le quali riportano (nel caso più semplice) il numero di soggetti che hanno i due stati corrispondenti alla riga e alla colonna sulle proprietà rappresentate nella tabella e va sottolineato come tale numero è detto frequenza osservata. Le tabelle a doppia entrata consentono di analizzare la distribuzione congiunta delle due proprietà, per vedere se esistono delle concordanze tra le due proprietà,inoltre per vedere se alcuni stati di una proprietà attraggono altri stati, ossia si presentano più facilmente in congiunzione con altri stati.


Esempio di tabella a doppia entrata:


Mentre e tabelle di contingenza sono un particolare tipo di tabelle a doppia entrata ovvero tabelle con etichette di riga e di colonna, utilizzate in statistica per rappresentare e analizzare le relazioni tra due o più variabili. In esse si riportano le frequenze congiunte delle variabili.

Il caso più semplice è quello delle tabelle tetracoriche, in cui ciascuna delle due variabili assume solo due possibili valori, ad esempio:

Colore degli occhi\Colore dei Capelli

Biondi

NonBiondi

Totale

Chiari

21

19

40

NonChiari

9

51

60

Totale

30

70

100

Nella tabella sopra illustrata di noti come: tra le 100 persone esaminate, 30 presentano capelli biondi, 40 occhi chiari e soltanto 21 hanno capelli biondi e occhi chiari. Da questi dati è possibile ricavare i dati restanti della tabella. Utilizzando le tabelle di contingenza e operando specifici calcoli su di esse, si può arrivare a determinare la dipendenza o indipendenza tra le due variabili considerate, in base al valore assunto dall’indice di contingenza quadratico X2 .

Le due variabili considerate sono di tipo quantitativo discreto o qualitativo. Indicando tali variabili con X e Y e rispettivamente con xi (i = 1,2,…,h) e yj (j=1,2,…,k) le modalità rilevate per le due variabili, ad ogni coppia (xi,yj ) si fa corrispondere nella tabella la sua frequenza associata ni,j , cioè il numero di elementi, tra gli n della popolazione, che possiedono contemporaneamente la modalità di xi di X e yj di Y.

Quando si parla di ipercubo e delle sue principale caratteristiche

L'ipercubo, o n-cubo è una forma geometrica regolare immersa in uno spazio di quattro o più dimensioni. L'ipercubo è un politopo (l'analogo multidimensionale di poligoni e poliedri), che generalizza in dimensione più alta i concetti di punto, segmento, quadrato e cubo, appartenenti rispettivamente alle dimensioni 0, 1, 2 e 3.

Il prefisso "iper", è usato per indicare una generalizzazione in dimensioni superiori a 3 oltre ad essere usato anche per altre figure geometriche, come l'ipersfera e l'iperpiano. In alcuni testi il prefisso è sostituito dalla dimensione, e si parla quindi di n-cubo o n-sfera: un quadrato per esempio è un 2-cubo mentre un cubo è un 3-cubo.

In dimensione 4, l'ipercubo è chiamato anche tesseratto ('dal greco τέσσερις ακτίνες ovvero "quattro raggi"): è costituito da 24 facce bidimensionali quadrate, e da 8 facce 3-dimensionali cubiche. L'ipercubo (o n-cubo) è una forma geometrica regolare immersa in uno spazio di quattro o più dimensioni.

In cosa consiste un sistema OLAP?



OLAP, acronimo che sta per l'espressione On-Line Analytical Processing, designa un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse. Questa è la componente tecnologica base del data warehouse e può servire alle aziende per analizzare i risultati delle vendite, l'andamento dei costi di acquisto merci, al marketing per misurare il successo di una campagna pubblicitaria, ad una università i dati di un sondaggio ed altri casi simili. Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni. La creazione di un database OLAP consiste nell'effettuare una fotografia di informazioni ad esempio quelle di un database relazionale in un determinato momento e trasformare queste singole informazioni in dati multidimensionali. Eseguendo successivamente delle interrogazioni sui dati così strutturati è possibile ottenere risposte in tempi decisamente ridotti rispetto alle stesse operazioni effettuate su altre tipologie di database, anche perché il DB di un sistema OLTP non è stato studiato per consentire analisi articolate.

Caratteristiche base di un sistema OLAP

Le funzioni di base di uno strumento OLAP sono:

Slicing: che consiste in un' operazione di rotazione delle dimensioni di analisi. È un'operazione fondamentale per analizzare totali ottenuti in base a dimensioni diverse o se si vogliono analizzare aggregazioni trasversali;

Dicing: è appunto l'operazione di estrazione di un subset di informazioni dall'aggregato che si sta analizzando. L'operazione di dicing viene eseguita quando l'analisi viene focalizzata su una "fetta del cubo" avente particolare interesse per l'analista. In alcuni casi l'operazione di dicing può essere "fisica" nel senso che non consiste solo nel filtrare le informazioni di interesse ma anche nell'estrarle dall'aggregato generale per distribuirne i contenuti;

Drill-down: è l'operazione di "esplosione" del dato nelle sue determinanti. L'operazione di drill-down può essere eseguita seguendo due diversi percorsi: la gerarchia costruita sulla dimensione di analisi (p. es.: passaggio dalla famiglia di prodotti all'insieme dei prodotti che ne fanno parte) oppure la relazione matematica che lega un dato calcolato alle sue determinanti (p. es.: passaggio dal margine al ricavo e costo che lo generano). È comprensibile l'importanza di tale operazione ai fini analitici in termini di comprensione delle determinanti di un dato;

Drill-across: è l'operazione mediante la quale si naviga attraverso uno stesso livello nell'ambito di una gerarchia. Come visto precedentemente, il passaggio dalla famiglia di prodotti alla lista dei prodotti è un'operazione di drill-down, il passaggio da una famiglia ad un'altra famiglia è un'operazione di drill-across;

Drill-through: concettualmente simile al drill-down, è l'operazione mediante la quale si passa da un livello aggregato al livello di dettaglio appartenente alla base dati normalizzata. Molti venditori proclamano che i loro prodotti hanno la capacità, mediante l'operazione di drill-through, di passare dal data warehouse ai sistemi transazionali alimentanti. Tale operazione, anche se tecnicamente fattibile sotto una serie di condizioni abbastanza rilevanti, è poco sensata per le problematiche di sicurezza e di performance indotti nei sistemi transazionali stessi.

Punti di forza degli strumenti OLAP:



Uno degli elementi di forza dell’ OPLA è la riduzione del movimento e della latenza dei dati, infatti grazie a Oracle OLAP, non è più necessario replicare i dati in un server OLAP indipendente e proprietario, poiché tutti i dati multidimensionali vengono archiviati direttamente nel motore relazionale di Oracle Database. Questo consente un accesso più rapido a informazioni di migliore qualità, un aspetto particolarmente rilevante nei processi decisionali.

Un secondo aspetto che risulta essere a favore della struttura Olap è la riduzione dei costi IT e della complessità: Oracle OLAP permette di ridurre i costi e di semplificare notevolmente l’ambiente IT. Oracle OLAP elimina la necessità di acquistare ulteriori componenti hardware e permette di mantenere un unico server e un unico modello di sicurezza. Oracle OLAP supporta inoltre l'accesso SQL a tipi di dati multidimensionali, consentendo di sfruttare gli investimenti esistenti in strumenti, applicazioni e competenze SQL.

Il terzo aspetto caratterizzante la struttura presa ad esame ci giunge dall’analisi su scala aziendale con il grid computing: nell’ambito del processo decisionale, la semplice possibilità di accedere ai dati risulta inutile se i dati richiesti non sono disponibili. Oracle OLAP e Oracle Real Applications Clusters, insieme, formano la base del VLDM: Very Large Multi-dimensional Database, un tipo di database che può garantire l'accesso continuo alle informazioni a migliaia di utenti concomitanti.

Punti di debolezza degli strumenti OLAP

Inaccessibilità e difficoltà ad accedere al livello atomico del dato: gli strumenti OLAP funzionano molto bene su dati di sintesi,infatti non è conveniente usarli su dati analitici;

Sistemi di backup, restore, security, rollback non molto sofisticati o inesistenti: pur essendo in molti casi dei motori database, gli strumenti OLAP non hanno ancora raggiunto il livello di completezza dei database relazionali, principalmente perché, a differenza di questi ultimi, non hanno un paradigma concettuale di riferimento come la teoria di Codd, ma sono soggetti alle interpretazioni dei diversi produttori software;

Richiede una struttura denormalizzata per funzionare in maniera efficiente: i motori OLAP generano grandi masse di dati per il semplice fatto che per migliorare le prestazioni di accesso sono costretti a memorizzare chiavi ridondanti e sommarizzazioni;

Possibile proliferazione del codice SQL: nel caso in cui il database su cui vengono effettuate le analisi OLAP non sia multidimensionale (MOLAP) ma sia relazionale (ROLAP), ognuna delle operazioni sopra descritte (slicing, dicing, drilling) provoca la generazione e l'esecuzione di query SQL estremamente complesse, che richiedono molte risorse di elaborazione.

Esempio di Cubo Olap a tre dimensioni





Esempio di cubo OLAP a 3 dimensioni: prodotti, città, tempo




Esempio di schema a stella


Una struttura OLAP creata per questo scopo è chiamata cubo multidimensionale. Ci sono diversi modi per creare un cubo, ma il più conosciuto è quello che utilizza uno schema "a stella"; al centro c'è la tabella dei "fatti" che elenca i principali elementi su cui sarà costruita l'interrogazione, e collegate a questa tabella ci sono varie tabelle delle "dimensioni" che specificano come saranno aggregati i dati.

Per esempio un archivio di clienti può essere raggruppato per città, provincia, regione; questi clienti possono essere relazionati con i prodotti ed ogni prodotto può essere raggruppato per categoria.

Il calcolo delle possibili combinazioni di queste aggregazioni forma una struttura OLAP che, potenzialmente, potrebbe contenere tutte le risposte per ogni singola combinazione. In realtà viene memorizzato solo un numero predeterminato di combinazioni, mentre le rimanenti vengono ricalcolate solo al momento in cui quella richiesta viene materialmente effettuata

L’importanza di un sistema OLAP

Un sistema OLAP risulta di fondamentale importanza perché permette di:

studiare una grande quantità di dati

vedere i dati da prospettive diverse

supportare i processi decisionali.

Esistono tre tipologie di sistemi OLAP:

Multidimensionale: MOLAP: Multidimensional OLAP, relazionale: ROLAP: Relational OLAP e ibrido HOLAP: Hybrid OLAP. MOLAP è la tipologia più utilizzata e ci si riferisce ad essa comunemente con il termine OLAP. Utilizza un database di riepilogo avente un motore specifico per l'analisi multidimensionale e crea le "dimensioni" con un misto di dettaglio ed aggregazioni.

ROLAP lavora direttamente con database relazionali; i dati e le tabelle delle dimensioni sono memorizzati come tabelle relazionali e nuove tabelle sono create per memorizzare le informazioni di aggregazione.

HOLAP utilizza tabelle relazionali per memorizzare i dati e le tabelle multidimensionali per le aggregazioni "speculative".

Ogni tipologia presenta vantaggi, ma non c'è un accordo completo relativamente a questi vantaggi.

MOLAP risulta la scelta migliore per quantità di dati ridotte, perché è veloce nel calcolare aggregazioni e restituire risultati, ma crea enormi quantità di dati intermedi.

ROLAP è considerato più scalabile e richiede minor spazio disco e minore RAM ma è lento nella fase di creazione tabelle e nel produrre il risultato delle interrogazioni.

HOLAP si pone nel mezzo, è in grado di essere creato più velocemente di ROLAP ed è più scalabile di MOLAP.

La difficoltà nell'implementazione di un database OLAP parte dalle ipotesi delle possibili interrogazioni utente; scegliere la tipologia di OLAP, lo schema e creare una base dati completa e consistente è un'operazione complessa, decisamente complicata per una base di utenza ampia ed eterogenea.

Per venire incontro alle esigenze degli utenti, molti prodotti moderni forniscono una quantità enorme di schemi ed interrogazioni pre-impostate.




Nessun commento:

Posta un commento