Domande e risposte per l’esame

Domanda Risposta
Mediana Riordino, Posizione: (N+1)/2 se dispari, N/2 se pari
Indice di variabilità relativa C.v. = σ/µ
Spiegare la dipendenza di Y da X. Retta, varianza spiegata della retta
Valutare la capacità interpretativa/bontà dell’interpolazione ρ2
Valore medio di X che lascia invariata la quantità ∑Ni=1yi Il vincolo della conservazione della somma è: ∑Ni=1yi = ∑Ni=1f. I dovrà soddisfare la condizione di equivalenza di Chisini. Sostituisco I ad x.
Verificare che I soddisfa le proprietà di una media analitica. Soddisfa la condizione di equivalenza di Chisini? Sì. E la condizione di internalità di Cauchy se 1 ≤ I ≤ valore max.
Sapendo che la relazione lineare Z=f(X) spiega la dipendenza di Z da X soddisfa la condizione f(0) = 0, si individui f. Si trova l’equazione Z = (xz/x2)X
Si misuri il grado di dispersione (assoluto e normalizzato) Indice γ di Gini. γ’ = γ / γmax dove γmax è il valore che assume l’indice in caso di Equidistribuzione.
La difformità in dipendenza delle classi. Si calcoli l’incidenza della Y da X. Calcolo γ1, γ2, etc. La media ponderata delle misure di dispersione in ciascuna classe è una misura della dispersione residua γ*. γ = γ – γ* è una misura della difformità spiegata dalle classi. Per ottenere una misura normalizzata, o l’incidenza, si calcoli l’indice τ di GGK
Prevedere il tasso medio di incremento e un’opportuna interpolante. Valore iniziale(1 + t)n = valore finale. Trovare t. Oppure la retta.
Costruire una situazione di perfetta dipendenza in media biunivoca Esiste perfetta dipendenza in media di X da Y (η2 = 1) se ad ogni valore di Y corrisponde un solo valore di X. Affinchè ηx2 = 1 e ηy2 = 1 è necessario che tutti i dati differiscano tra loro.
Si confrontino le distribuzioni di X condizionate da Y Se le serie condizionate di X|y non sono direttamente compatibili fra loro e con la marginale in quanto sono caratterizzate da un diverso totale, la comparabilità può essere raggiunta ricorrendo alle frequenze relative.
Si valuti la dipendenza di X da Y e da Z Se caratterizzate da un diverso totale, sono stocasticamente indipendenti. Uso GGK
Si calcoli σ e µ complessivi Calcolare la media totale, quindi la varianza come spiegata + residua.
Si confronti la variabilità dei fenomeni attraverso un indice opportuno C.v. = σ/µ
Si spieghi Y in dipendenza della variabile con cui risulta maggiormente correlata Confronto ρYX2 e ρYZ2 e trovo quella maggiormente correlata con Y. Retta di regressione. Se mi chiede il valore che prevede Y = n inserisco n nella formula.
Quale variabile influisce di più sulla X? Se si ipotizza un legame lineare tra le variabili, si può analizzare la dipendenza di tipo funzionale della variabile X da ciascuna delle altre due variabili, ricorrendo al coefficiente di correlazione ρXY XZ. Per trovarlo, si devono trovare tutte le medie µX, µY, µZ, µXY, µXZ e le covarianze σXY e σXZ e le varianze σ2 di x, y, z.
Quale modello statistico può prevedere X, con determinate Y e Z? Piano di regressione multipla, con coefficienti a,b,c. Poi inserisco nella formula del piano i valori dati.
Si confrontino le distribuzioni Si costruiscono le distribuzioni condizionate (numero/totale colonna) e si dice su quali variabili è concentrata la distribuzione.
Si illustrino le condizioni di minima e massima connessione, sia teoricamente, sia costruendo le tabelle di frequenze La condizione di minima connessine è quella di indipendenza stocastica in cui le distribuzioni condizionate sono tutte, contemporaneamente, uguali fra loro (e quindi uguali alla distribuzione marginale). Le frequenze teoriche in caso di dipendenza stocastica … arrivare a fare Pearson-Pizzetti.
Date le medie, le varianze e le covarianze X Y Z, si individui la retta di regressione, un opportuno indice di bontà Retta, ρ2 = σYV2 / (σY2 σV2). Dire quanto spiega.
Dato il piano, se ne valuti la bontà. Rapporto di correlazione lineare multipla: VWηY2 = 1 – VWσ*Y2Y2 che esprime la frazione normalizzata di varianza totale di Y spiegata dal piano di regressione. Per trovare il valore della varianza residua: VWσ*Y2 = µ2Y – aµ2Y – bµYV – cµYW. Si utilizzano le relazioni esistenti tra momenti e momenti misti:µ2Y = σY2 + µY2

µYV = σYV + µYµV

µYW =  σYW + µYµW

Si ottiene così YWσ*Y2

E ottengo anche: VWηY2 = 1 – VWσ*Y2Y2

Dato il piano, si valuti il miglioramento relativo ottenuto introducendo nel modello di regressione multipla una seconda variabile. Indice di miglioramento multidimensionale: VWρ2Y = (VσY*2VWσY*2)/ VσY*2Poiché VσY*2 = σY*2 (1 – ρ2) si ottiene VWρ2Y = (VσY*2VWσY*2)/ VσY*2 si trova una riduzione o un aumento di varianza residua.

 

 

Si individui la retta di regressione parziale che spiega Y in funzione di V, in costanza di W. Essa può essere individuata, ponendo nell’equazione del piano di regressione, la µW = w. Pertanto l’equazione del piano di regressione si riduce alla retta parziale.
Si valuti con opportuno indice la bontà del modello di regressione parziale. Un opportuno indice per valutare la bontà del modello di regressione parziale è dato dal quadrato del coefficiente di correlazione parziale: Wρ2YV
Si dia un giudizio sulla variabilità di X È utile calcolare la differenza quadratica media (Δ) che indica il grado di difformità tra le unità statistiche osservate. Δ = σ√2 √(N/N – 1)         dove  σ=√(µ2 – µ2)Si riportano le elaborazioni utili al calcolo degli operatori statistici presenti nell’equazione: X, f, Xf, X2, X2f. Si ottengono così: µx, µ2(x), σ2x = µ2(x) – µ2(x), σx.

Quindi ottengo Δ. Devo normalizzarlo. Per far ciò è utile costruire la tabella di massima variabilità, cioè mettendo metà delle frequenze al primo valore, l’altra metà all’ultimo valore e agli altri mettendo 0. Applicando ancora le formule precedenti, troviamo Δmax da cui Δ/Δmax.

Data una tabella a doppia entrata, dire che valore devono assumere A, B, C, in modo che: ηY|X2 = ρ2 = 1[A=0,B=1,C=0] Nel primo caso, la varianza residua dalle medie condizionate σ2* e la varianza residua dalla retta di regressione 1σ2* sono uguali tra loro ed entrambe uguali a zero. Si è in presenza di una situazione ottima e di massima efficacia della retta di regressione nel sintetizzare la distribuzione.
0< ηY|X2 = ρ2<1[A=1,B=0,C=1] Le due varianze residue risultano uguali, ma provengono da due concetti diversi. Le medie condizionate sono perciò uguali ai valori teorici e quindi allineate. Caso di non migliorabilità.
ηY|X2 = 1 e ρ2<1[A=1,B=0,C=0] In questo caso la varianza residua dalle medie condizionate risulta =0, mentre la varianza dalla retta è ≠0. Le media condizionate non sono pertanto allineate. Caso migliorabile.
Si stimi il dato mancante scegliendo il metodo più conveniente tra: media, mediana, interpolante di primo grado tra X e Y. Si calcoli, media, mediana, retta.
Si esprima un giudizio sulla variabilità di X e di Y. Normσ2x = σ2x/maxσ2x = σ2x/(µ(x1 + xn) – x1xn – µ2). Commentare se X o Y ha dispersione >.
Quale metodo è più aderente? Il metodo dell’interpolante considera sia X sia Y.
Si descriva, con opportuni indici, la posizione e la dispersione della distribuzione distinta per Y. Y, qualitativo ordinale, può essere sintetizzato dagli indici di posizione moda e mediana (N/2 oppure (N+1)/2). Per valutare la dispersione, possono essere calcolati l’indice γ di Gini = ∑nj=1(1 – f.j/N) e l’indice normalizzato γ’= γ/γ max. Una misura normalizzata di mutabilità relativa alla moda è data da: δ’ = δ/δmaxcon δ = (N – f(Mo))/N   e con δmax = (N – f(Mo)min)/N
Si individui la distribuzione di frequenze congiunte che esprime la condizione di massima connessione, giustificando la scelta. Vedi appunti su indipendenza e connessione (fino ad arrivare a Pearson-Pizzetti) sino ad arrivare a GGK.
Si determini la quantità media nel rispetto del vincolo di conservazione della spesa complessiva del totale, riconoscendo il tipo di media. q = s/p. Chisini.media aritmetica ponderata (in questo caso).
Si misuri l’intensità del legame lineare presente e si individui un’opportuna funzione interpolante Una misura dell’intensità e del verso (positivo o negativo) del legame è data da ρ. Retta e soliti coefficienti. ρ2 spiega la percentuale di variabilità.
Si effettui uno studio completo della dipendenza di Y da X e Z Si introduce il modello del piano di regressione coi suoi coefficienti. Un indice di bontà di adattamento ai dati del piano è dato dal rapporto di correlazione multipla lineare: XZηY2=1 – XZσ2*Y2Y. Poiché la varianza residua dal piano di regressione multipla è pari a XZσ2*Y = µ2(y) – aµ2Y – bµYX – cµYZ. Il confronto tra i valori della varianza residua dalla retta e dal piano di regressione permette di valutare il miglioramento ottenuto introducendo nel modello lineare la variabile Z. A tal fine si calcola l’indice di miglioramento multidimensionale: XZρY2=(XσY*2XZσY*2)/ XσY*2, dove XσY*2 = σY2 – σXY2X2. Dalla lettura dell’indice di miglioramento si evince che l’introduzione di Z ha portato a riduzione/aumento della varianza residua del tot%.
Calcolare la media di X nel rispetto del vincolo di conservazione del tot. La relazione funzionale che lega il prezzo, la Q e la spesa è: S=XY.Poiché il vincolo di conservazione della spesa totale impone che: ∑ni=1si=∑ni=1xiyi e la condizione di equivalenza di Chisini prevede che: ∑ni=1xiyi = ∑ni=1Iyi,

il prezzo medio vale I =∑ni=1xiyi / ∑ni=1yi

Confrontare la variabilità delle distribuzioni di X, Y, S Calcolare le medie e le varianze di X, Y e S. Per effettuare il confronto si calcano i coefficienti di variazione: CVX = σXX etc. da cui emerge la > variabilità.
Stimare l’eterogeneità. Configurare i casi estremi. Per stimare l’eterogeneità della mutabile si può ricorrere al calcolo dell’indice di Gini considerando come frequenze “il numero di addetti”. Si ottiene γ. I casi estremi sono la massima concentrazione e l’equi-distribuzione.
Si valuti il tasso medio di variazione. Si spieghi ora la dipendenza attraverso un modello lineare. Si confronti la bontà dei modelli individuati. Si faccia una previsione sulla base dei 2 modelli (inserendo i numeri nelle formule). Valore iniziale(1 + t)n = valore finale. Dall’andamento del grafico si può capire se il valore se il valore debba esser positivo o negativo. Retta. Per effettuare il confronto, è necessario utilizzare le elaborazioni: XT, 1X, (XT – X)2, (1X – X)2. Il modello lineare risulta essere migliore se la somma degli scarti al quadrato dai valori effettivi risulta essere inferiore rispetto al modello col tasso medio.
Si stimi in modo opportuno il numero di Y, valutando la bontà dell’interpolante. Retta e ρ2.
Dopo aver calcolato le medie riferite ad ogni X, si valuti la frazione di varianza totale spiegata dalla retta. Occorre calcolare le medie condizionate delle Y rispetto alle X. La retta interpolante le medie condizionate ha la stessa equazione della retta di regressione: µ(Y|X)= µy + σXY2X(X – µX). Occorre calcolare 1δ2Y = ρ2y2.Dove ηy2 = σ2Y2Y     e dove: σ2Y = 1/N∑ni=1[µ(y/x) – µY]2fi.
Dopo aver individuato il carattere condizionante (X) e quello condizionato (Y), effettuare uno studio completo della dipendenza di Y da X. E casi limite. Retta e ρ2. I casi limite che si possono presentare sono:

  • ρ=0, che segnala la presenza di in correlazione tra le variabili;
  • ρ=1, che segnala la presenza di un legame diretto perfettamente lineare fra le variabili;
  • ρ=-1, che segnala la presenza di un legame inverso perfettamente lineare tra le variabili;
  • ρ22, che segnala la non migliorabilità del modello di regressione lineare semplice, in quanto le medie condizionate sono allineate lungo la retta di regressione ma esiste del residuo non eliminabile.
Dati ∑X, ∑Y, ∑X2, ∑Y2, ∑XY, ∑X3, ∑X4, ∑X2Y prevedere Y dato X ricorrendo ad un modello lineare. Valutare la bontà del modello individuato. Retta: Y=μy–(σxy2xx + (σxy2x)x      dove:Visto che X è dato, lo inserisco nell’equazione finale e prevedo Y. Le medie sono: μy=∑Y/N, μX=∑X/N, μXY=∑XY/NσXY = μXY – μX * μY

σ2x = ∑X2/N – μX2

Per valutare la bontà del modello si calcola il rapporto di correlazione lineare ρ2. Ciò rende necessario calcolare anche la varianza di Y: σ2Y = ∑Y2/N – μY22 = σXY2/( σ2x σ2Y ). Fare le solite considerazioni: spiega per il tot% etc.
Rifare la previsione ricorrendo al modello parabolico. Valutarne la bontà. Parabola: si vedano le formule sul formulario. La bontà del modello è fornita dal rapporto di correlazione parabolico: 2ηY2.
Confrontare l’efficienza dei 2 modelli. Il confronto tra l’efficienza dei 2 modelli è dato dall’indice di miglioramento: r+1ρ2Y = (rσ*2yr+1σ*2y)/rσ*2ydove: 1σ*2y = σ2y (1 – ρ2)