Domande e risposte per l’esame
Domanda | Risposta |
Mediana | Riordino, Posizione: (N+1)/2 se dispari, N/2 se pari |
Indice di variabilità relativa | C.v. = σ/µ |
Spiegare la dipendenza di Y da X. | Retta, varianza spiegata della retta |
Valutare la capacità interpretativa/bontà dell’interpolazione | ρ2 |
Valore medio di X che lascia invariata la quantità ∑Ni=1yi | Il vincolo della conservazione della somma è: ∑Ni=1yi = ∑Ni=1f. I dovrà soddisfare la condizione di equivalenza di Chisini. Sostituisco I ad x. |
Verificare che I soddisfa le proprietà di una media analitica. | Soddisfa la condizione di equivalenza di Chisini? Sì. E la condizione di internalità di Cauchy se 1 ≤ I ≤ valore max. |
Sapendo che la relazione lineare Z=f(X) spiega la dipendenza di Z da X soddisfa la condizione f(0) = 0, si individui f. | Si trova l’equazione Z = (xz/x2)X |
Si misuri il grado di dispersione (assoluto e normalizzato) | Indice γ di Gini. γ’ = γ / γmax dove γmax è il valore che assume l’indice in caso di Equidistribuzione. |
La difformità in dipendenza delle classi. Si calcoli l’incidenza della Y da X. | Calcolo γ1, γ2, etc. La media ponderata delle misure di dispersione in ciascuna classe è una misura della dispersione residua γ*. γ = γ – γ* è una misura della difformità spiegata dalle classi. Per ottenere una misura normalizzata, o l’incidenza, si calcoli l’indice τ di GGK |
Prevedere il tasso medio di incremento e un’opportuna interpolante. | Valore iniziale(1 + t)n = valore finale. Trovare t. Oppure la retta. |
Costruire una situazione di perfetta dipendenza in media biunivoca | Esiste perfetta dipendenza in media di X da Y (η2 = 1) se ad ogni valore di Y corrisponde un solo valore di X. Affinchè ηx2 = 1 e ηy2 = 1 è necessario che tutti i dati differiscano tra loro. |
Si confrontino le distribuzioni di X condizionate da Y | Se le serie condizionate di X|y non sono direttamente compatibili fra loro e con la marginale in quanto sono caratterizzate da un diverso totale, la comparabilità può essere raggiunta ricorrendo alle frequenze relative. |
Si valuti la dipendenza di X da Y e da Z | Se caratterizzate da un diverso totale, sono stocasticamente indipendenti. Uso GGK |
Si calcoli σ e µ complessivi | Calcolare la media totale, quindi la varianza come spiegata + residua. |
Si confronti la variabilità dei fenomeni attraverso un indice opportuno | C.v. = σ/µ |
Si spieghi Y in dipendenza della variabile con cui risulta maggiormente correlata | Confronto ρYX2 e ρYZ2 e trovo quella maggiormente correlata con Y. Retta di regressione. Se mi chiede il valore che prevede Y = n inserisco n nella formula. |
Quale variabile influisce di più sulla X? | Se si ipotizza un legame lineare tra le variabili, si può analizzare la dipendenza di tipo funzionale della variabile X da ciascuna delle altre due variabili, ricorrendo al coefficiente di correlazione ρXY eρXZ. Per trovarlo, si devono trovare tutte le medie µX, µY, µZ, µXY, µXZ e le covarianze σXY e σXZ e le varianze σ2 di x, y, z. |
Quale modello statistico può prevedere X, con determinate Y e Z? | Piano di regressione multipla, con coefficienti a,b,c. Poi inserisco nella formula del piano i valori dati. |
Si confrontino le distribuzioni | Si costruiscono le distribuzioni condizionate (numero/totale colonna) e si dice su quali variabili è concentrata la distribuzione. |
Si illustrino le condizioni di minima e massima connessione, sia teoricamente, sia costruendo le tabelle di frequenze | La condizione di minima connessine è quella di indipendenza stocastica in cui le distribuzioni condizionate sono tutte, contemporaneamente, uguali fra loro (e quindi uguali alla distribuzione marginale). Le frequenze teoriche in caso di dipendenza stocastica … arrivare a fare Pearson-Pizzetti. |
Date le medie, le varianze e le covarianze X Y Z, si individui la retta di regressione, un opportuno indice di bontà | Retta, ρ2 = σYV2 / (σY2 σV2). Dire quanto spiega. |
Dato il piano, se ne valuti la bontà. | Rapporto di correlazione lineare multipla: VWηY2 = 1 – VWσ*Y2/σY2 che esprime la frazione normalizzata di varianza totale di Y spiegata dal piano di regressione. Per trovare il valore della varianza residua: VWσ*Y2 = µ2Y – aµ2Y – bµYV – cµYW. Si utilizzano le relazioni esistenti tra momenti e momenti misti:µ2Y = σY2 + µY2
µYV = σYV + µYµV µYW = σYW + µYµW Si ottiene così YWσ*Y2 E ottengo anche: VWηY2 = 1 – VWσ*Y2/σY2 |
Dato il piano, si valuti il miglioramento relativo ottenuto introducendo nel modello di regressione multipla una seconda variabile. | Indice di miglioramento multidimensionale: VWρ2Y = (VσY*2 – VWσY*2)/ VσY*2Poiché VσY*2 = σY*2 (1 – ρ2) si ottiene VWρ2Y = (VσY*2 – VWσY*2)/ VσY*2 si trova una riduzione o un aumento di varianza residua. |
Si individui la retta di regressione parziale che spiega Y in funzione di V, in costanza di W. | Essa può essere individuata, ponendo nell’equazione del piano di regressione, la µW = w. Pertanto l’equazione del piano di regressione si riduce alla retta parziale. | ||
Si valuti con opportuno indice la bontà del modello di regressione parziale. | Un opportuno indice per valutare la bontà del modello di regressione parziale è dato dal quadrato del coefficiente di correlazione parziale: Wρ2YV | ||
Si dia un giudizio sulla variabilità di X | È utile calcolare la differenza quadratica media (Δ) che indica il grado di difformità tra le unità statistiche osservate. Δ = σ√2 √(N/N – 1) dove σ=√(µ2 – µ2)Si riportano le elaborazioni utili al calcolo degli operatori statistici presenti nell’equazione: X, f, Xf, X2, X2f. Si ottengono così: µx, µ2(x), σ2x = µ2(x) – µ2(x), σx.
Quindi ottengo Δ. Devo normalizzarlo. Per far ciò è utile costruire la tabella di massima variabilità, cioè mettendo metà delle frequenze al primo valore, l’altra metà all’ultimo valore e agli altri mettendo 0. Applicando ancora le formule precedenti, troviamo Δmax da cui Δ/Δmax. |
||
Data una tabella a doppia entrata, dire che valore devono assumere A, B, C, in modo che: | ηY|X2 = ρ2 = 1[A=0,B=1,C=0] | Nel primo caso, la varianza residua dalle medie condizionate σ2* e la varianza residua dalla retta di regressione 1σ2* sono uguali tra loro ed entrambe uguali a zero. Si è in presenza di una situazione ottima e di massima efficacia della retta di regressione nel sintetizzare la distribuzione. | |
0< ηY|X2 = ρ2<1[A=1,B=0,C=1] | Le due varianze residue risultano uguali, ma provengono da due concetti diversi. Le medie condizionate sono perciò uguali ai valori teorici e quindi allineate. Caso di non migliorabilità. | ||
ηY|X2 = 1 e ρ2<1[A=1,B=0,C=0] | In questo caso la varianza residua dalle medie condizionate risulta =0, mentre la varianza dalla retta è ≠0. Le media condizionate non sono pertanto allineate. Caso migliorabile. | ||
Si stimi il dato mancante scegliendo il metodo più conveniente tra: media, mediana, interpolante di primo grado tra X e Y. | Si calcoli, media, mediana, retta. | ||
Si esprima un giudizio sulla variabilità di X e di Y. | Normσ2x = σ2x/maxσ2x = σ2x/(µ(x1 + xn) – x1xn – µ2). Commentare se X o Y ha dispersione >. | ||
Quale metodo è più aderente? | Il metodo dell’interpolante considera sia X sia Y. | ||
Si descriva, con opportuni indici, la posizione e la dispersione della distribuzione distinta per Y. | Y, qualitativo ordinale, può essere sintetizzato dagli indici di posizione moda e mediana (N/2 oppure (N+1)/2). Per valutare la dispersione, possono essere calcolati l’indice γ di Gini = ∑nj=1(1 – f.j/N) e l’indice normalizzato γ’= γ/γ max. Una misura normalizzata di mutabilità relativa alla moda è data da: δ’ = δ/δmaxcon δ = (N – f(Mo))/N e con δmax = (N – f(Mo)min)/N | ||
Si individui la distribuzione di frequenze congiunte che esprime la condizione di massima connessione, giustificando la scelta. | Vedi appunti su indipendenza e connessione (fino ad arrivare a Pearson-Pizzetti) sino ad arrivare a GGK. | ||
Si determini la quantità media nel rispetto del vincolo di conservazione della spesa complessiva del totale, riconoscendo il tipo di media. | q = s/p. Chisini.media aritmetica ponderata (in questo caso). | ||
Si misuri l’intensità del legame lineare presente e si individui un’opportuna funzione interpolante | Una misura dell’intensità e del verso (positivo o negativo) del legame è data da ρ. Retta e soliti coefficienti. ρ2 spiega la percentuale di variabilità. | ||
Si effettui uno studio completo della dipendenza di Y da X e Z | Si introduce il modello del piano di regressione coi suoi coefficienti. Un indice di bontà di adattamento ai dati del piano è dato dal rapporto di correlazione multipla lineare: XZηY2=1 – XZσ2*Y/σ2Y. Poiché la varianza residua dal piano di regressione multipla è pari a XZσ2*Y = µ2(y) – aµ2Y – bµYX – cµYZ. Il confronto tra i valori della varianza residua dalla retta e dal piano di regressione permette di valutare il miglioramento ottenuto introducendo nel modello lineare la variabile Z. A tal fine si calcola l’indice di miglioramento multidimensionale: XZρY2=(XσY*2 – XZσY*2)/ XσY*2, dove XσY*2 = σY2 – σXY2/σX2. Dalla lettura dell’indice di miglioramento si evince che l’introduzione di Z ha portato a riduzione/aumento della varianza residua del tot%. | ||
Calcolare la media di X nel rispetto del vincolo di conservazione del tot. | La relazione funzionale che lega il prezzo, la Q e la spesa è: S=XY.Poiché il vincolo di conservazione della spesa totale impone che: ∑ni=1si=∑ni=1xiyi e la condizione di equivalenza di Chisini prevede che: ∑ni=1xiyi = ∑ni=1Iyi,
il prezzo medio vale I =∑ni=1xiyi / ∑ni=1yi |
||
Confrontare la variabilità delle distribuzioni di X, Y, S | Calcolare le medie e le varianze di X, Y e S. Per effettuare il confronto si calcano i coefficienti di variazione: CVX = σX/µX etc. da cui emerge la > variabilità. | ||
Stimare l’eterogeneità. Configurare i casi estremi. | Per stimare l’eterogeneità della mutabile si può ricorrere al calcolo dell’indice di Gini considerando come frequenze “il numero di addetti”. Si ottiene γ. I casi estremi sono la massima concentrazione e l’equi-distribuzione. | ||
Si valuti il tasso medio di variazione. Si spieghi ora la dipendenza attraverso un modello lineare. Si confronti la bontà dei modelli individuati. Si faccia una previsione sulla base dei 2 modelli (inserendo i numeri nelle formule). | Valore iniziale(1 + t)n = valore finale. Dall’andamento del grafico si può capire se il valore se il valore debba esser positivo o negativo. Retta. Per effettuare il confronto, è necessario utilizzare le elaborazioni: XT, 1X, (XT – X)2, (1X – X)2. Il modello lineare risulta essere migliore se la somma degli scarti al quadrato dai valori effettivi risulta essere inferiore rispetto al modello col tasso medio. | ||
Si stimi in modo opportuno il numero di Y, valutando la bontà dell’interpolante. | Retta e ρ2. | ||
Dopo aver calcolato le medie riferite ad ogni X, si valuti la frazione di varianza totale spiegata dalla retta. | Occorre calcolare le medie condizionate delle Y rispetto alle X. La retta interpolante le medie condizionate ha la stessa equazione della retta di regressione: µ(Y|X)= µy + σXY/σ2X(X – µX). Occorre calcolare 1δ2Y = ρ2/ηy2.Dove ηy2 = σ2Y/σ2Y e dove: σ2Y = 1/N∑ni=1[µ(y/x) – µY]2fi. | ||
Dopo aver individuato il carattere condizionante (X) e quello condizionato (Y), effettuare uno studio completo della dipendenza di Y da X. E casi limite. | Retta e ρ2. I casi limite che si possono presentare sono:
|
||
Dati ∑X, ∑Y, ∑X2, ∑Y2, ∑XY, ∑X3, ∑X4, ∑X2Y prevedere Y dato X ricorrendo ad un modello lineare. Valutare la bontà del modello individuato. | Retta: Y=μy–(σxy/σ2x)μx + (σxy/σ2x)x dove:Visto che X è dato, lo inserisco nell’equazione finale e prevedo Y. | Le medie sono: μy=∑Y/N, μX=∑X/N, μXY=∑XY/NσXY = μXY – μX * μY
σ2x = ∑X2/N – μX2 |
|
Per valutare la bontà del modello si calcola il rapporto di correlazione lineare ρ2. Ciò rende necessario calcolare anche la varianza di Y: σ2Y = ∑Y2/N – μY2.ρ2 = σXY2/( σ2x σ2Y ). Fare le solite considerazioni: spiega per il tot% etc. | |||
Rifare la previsione ricorrendo al modello parabolico. Valutarne la bontà. | Parabola: si vedano le formule sul formulario. La bontà del modello è fornita dal rapporto di correlazione parabolico: 2ηY2. | ||
Confrontare l’efficienza dei 2 modelli. | Il confronto tra l’efficienza dei 2 modelli è dato dall’indice di miglioramento: | r+1ρ2Y = (rσ*2y – r+1σ*2y)/rσ*2ydove: 1σ*2y = σ2y (1 – ρ2) | |