Domande e risposte per l’esame

*Domanda*	*Risposta*
Mediana	Riordino, Posizione: (N+1)/2 se dispari, N/2 se pari
Indice di variabilità relativa	C.v. = σ/µ
Spiegare la dipendenza di Y da X.	Retta, varianza spiegata della retta
Valutare la capacità interpretativa/bontà dell’interpolazione	ρ²
Valore medio di X che lascia invariata la quantità ∑^N_i=1y_i	Il vincolo della conservazione della somma è: ∑^N_i=1y_i = ∑^N_i=1f. I dovrà soddisfare la condizione di equivalenza di Chisini. Sostituisco I ad x.
Verificare che I soddisfa le proprietà di una media analitica.	Soddisfa la condizione di equivalenza di Chisini? Sì. E la condizione di internalità di Cauchy se 1 ≤ I ≤ valore max.
Sapendo che la relazione lineare Z=f(X) spiega la dipendenza di Z da X soddisfa la condizione f(0) = 0, si individui f.	Si trova l’equazione Z = (xz/x²)X
Si misuri il grado di dispersione (assoluto e normalizzato)	Indice γ di Gini. γ’ = γ / γ_maxdove γ_maxè il valore che assume l’indice in caso di Equidistribuzione.
La difformità in dipendenza delle classi. Si calcoli l’incidenza della Y da X.	Calcolo γ₁, γ₂, etc. La media ponderata delle misure di dispersione in ciascuna classe è una misura della dispersione residua γ. γ = γ – γ è una misura della difformità spiegata dalle classi. Per ottenere una misura normalizzata, o l’incidenza, si calcoli l’indice τ di GGK
Prevedere il tasso medio di incremento e un’opportuna interpolante.	Valore iniziale(1 + t)ⁿ = valore finale. Trovare t. Oppure la retta.
Costruire una situazione di perfetta dipendenza in media biunivoca	Esiste perfetta dipendenza in media di X da Y (η² = 1) se ad ogni valore di Y corrisponde un solo valore di X. Affinchè η_x² = 1 e η_y² = 1 è necessario che tutti i dati differiscano tra loro.
Si confrontino le distribuzioni di X condizionate da Y	Se le serie condizionate di X\|y non sono direttamente compatibili fra loro e con la marginale in quanto sono caratterizzate da un diverso totale, la comparabilità può essere raggiunta ricorrendo alle frequenze relative.
Si valuti la dipendenza di X da Y e da Z	Se caratterizzate da un diverso totale, sono stocasticamente indipendenti. Uso GGK
Si calcoli σ e µ complessivi	Calcolare la media totale, quindi la varianza come spiegata + residua.
Si confronti la variabilità dei fenomeni attraverso un indice opportuno	C.v. = σ/µ
Si spieghi Y in dipendenza della variabile con cui risulta maggiormente correlata	Confronto ρ_YX² e ρ_YZ² e trovo quella maggiormente correlata con Y. Retta di regressione. Se mi chiede il valore che prevede Y = n inserisco n nella formula.
Quale variabile influisce di più sulla X?	Se si ipotizza un legame lineare tra le variabili, si può analizzare la dipendenza di tipo funzionale della variabile X da ciascuna delle altre due variabili, ricorrendo al coefficiente di correlazione ρ_XYeρ_XZ. Per trovarlo, si devono trovare tutte le medie µ_X, µ_Y, µ_Z, µ_XY, µ_XZ e le covarianze σ_XY e σ_XZ e le varianze σ² di x, y, z.
Quale modello statistico può prevedere X, con determinate Y e Z?	Piano di regressione multipla, con coefficienti a,b,c. Poi inserisco nella formula del piano i valori dati.
Si confrontino le distribuzioni	Si costruiscono le distribuzioni condizionate (numero/totale colonna) e si dice su quali variabili è concentrata la distribuzione.
Si illustrino le condizioni di minima e massima connessione, sia teoricamente, sia costruendo le tabelle di frequenze	La condizione di minima connessine è quella di indipendenza stocastica in cui le distribuzioni condizionate sono tutte, contemporaneamente, uguali fra loro (e quindi uguali alla distribuzione marginale). Le frequenze teoriche in caso di dipendenza stocastica … arrivare a fare Pearson-Pizzetti.
Date le medie, le varianze e le covarianze X Y Z, si individui la retta di regressione, un opportuno indice di bontà	Retta, ρ² = σ_YV² / (σ_Y² σ_V²). Dire quanto spiega.
Dato il piano, se ne valuti la bontà.	Rapporto di correlazione lineare multipla: _VWη_Y² = 1 – _VWσ_Y²/σ_Y² che esprime la frazione normalizzata di varianza totale di Y spiegata dal piano di regressione. Per trovare il valore della varianza residua: _VWσ_Y² = µ_2Y – aµ_2Y – bµ_YV – cµ_YW. Si utilizzano le relazioni esistenti tra momenti e momenti misti:µ_2Y = σ_Y² + µ_Y² µ_YV = σ_YV + µ_Yµ_V µ_YW = σ_YW + µ_Yµ_W Si ottiene così _YWσ_Y² E ottengo anche: _VWη_Y² = 1 – _VWσ_Y²/σ_Y²
Dato il piano, si valuti il miglioramento relativo ottenuto introducendo nel modello di regressione multipla una seconda variabile.	Indice di miglioramento multidimensionale: _VWρ²_Y= (_Vσ_Y² – _VWσ_Y²)/ _Vσ_Y²Poiché _Vσ_Y² = σ_Y² (1 – ρ²) si ottiene _VWρ²_Y= (_Vσ_Y² – _VWσ_Y²)/ _Vσ_Y² si trova una riduzione o un aumento di varianza residua.

Si individui la retta di regressione parziale che spiega Y in funzione di V, in costanza di W.	Essa può essere individuata, ponendo nell’equazione del piano di regressione, la µ_W = w. Pertanto l’equazione del piano di regressione si riduce alla retta parziale.
Si valuti con opportuno indice la bontà del modello di regressione parziale.	Un opportuno indice per valutare la bontà del modello di regressione parziale è dato dal quadrato del coefficiente di correlazione parziale: _Wρ²_YV
Si dia un giudizio sulla variabilità di X	È utile calcolare la differenza quadratica media (Δ) che indica il grado di difformità tra le unità statistiche osservate. Δ = σ√2 √(N/N – 1) dove σ=√(µ₂ – µ²)Si riportano le elaborazioni utili al calcolo degli operatori statistici presenti nell’equazione: X, f, Xf, X², X²f. Si ottengono così: µ_x, µ₂(x), σ²x = µ₂(x) – µ²(x), σ_x. Quindi ottengo Δ. Devo normalizzarlo. Per far ciò è utile costruire la tabella di massima variabilità, cioè mettendo metà delle frequenze al primo valore, l’altra metà all’ultimo valore e agli altri mettendo 0. Applicando ancora le formule precedenti, troviamo Δ_max da cui Δ/Δ_max.
Data una tabella a doppia entrata, dire che valore devono assumere A, B, C, in modo che:	η_Y\|X² = ρ² = 1[A=0,B=1,C=0]	Nel primo caso, la varianza residua dalle medie condizionate σ²* e la varianza residua dalla retta di regressione ₁σ²* sono uguali tra loro ed entrambe uguali a zero. Si è in presenza di una situazione ottima e di massima efficacia della retta di regressione nel sintetizzare la distribuzione.
	0< η_Y\|X² = ρ²<1[A=1,B=0,C=1]	Le due varianze residue risultano uguali, ma provengono da due concetti diversi. Le medie condizionate sono perciò uguali ai valori teorici e quindi allineate. Caso di non migliorabilità.
	η_Y\|X² = 1 e ρ²<1[A=1,B=0,C=0]	In questo caso la varianza residua dalle medie condizionate risulta =0, mentre la varianza dalla retta è ≠0. Le media condizionate non sono pertanto allineate. Caso migliorabile.
Si stimi il dato mancante scegliendo il metodo più conveniente tra: media, mediana, interpolante di primo grado tra X e Y.	Si calcoli, media, mediana, retta.
Si esprima un giudizio sulla variabilità di X e di Y.	_Normσ²x = σ²x/_maxσ²x = σ²x/(µ(x₁ + x_n) – x₁x_n – µ²). Commentare se X o Y ha dispersione >.
Quale metodo è più aderente?	Il metodo dell’interpolante considera sia X sia Y.
Si descriva, con opportuni indici, la posizione e la dispersione della distribuzione distinta per Y.	Y, qualitativo ordinale, può essere sintetizzato dagli indici di posizione moda e mediana (N/2 oppure (N+1)/2). Per valutare la dispersione, possono essere calcolati l’indice γ di Gini = ∑ⁿ_j=1(1 – f.j/N) e l’indice normalizzato γ’= γ/γ_max. Una misura normalizzata di mutabilità relativa alla moda è data da: δ’ = δ/δ_maxcon δ = (N – f(Mo))/N e con δ_max = (N – f(Mo)_min)/N
Si individui la distribuzione di frequenze congiunte che esprime la condizione di massima connessione, giustificando la scelta.	Vedi appunti su indipendenza e connessione (fino ad arrivare a Pearson-Pizzetti) sino ad arrivare a GGK.
Si determini la quantità media nel rispetto del vincolo di conservazione della spesa complessiva del totale, riconoscendo il tipo di media.	q = s/p. Chisini.media aritmetica ponderata (in questo caso).
Si misuri l’intensità del legame lineare presente e si individui un’opportuna funzione interpolante	Una misura dell’intensità e del verso (positivo o negativo) del legame è data da ρ. Retta e soliti coefficienti. ρ² spiega la percentuale di variabilità.
Si effettui uno studio completo della dipendenza di Y da X e Z	Si introduce il modello del piano di regressione coi suoi coefficienti. Un indice di bontà di adattamento ai dati del piano è dato dal rapporto di correlazione multipla lineare: _XZη_Y²=1 – _XZσ²_Y/σ²_Y. Poiché la varianza residua dal piano di regressione multipla è pari a _XZσ²_Y = µ₂(y) – aµ²_Y – bµ_YX– cµ_YZ. Il confronto tra i valori della varianza residua dalla retta e dal piano di regressione permette di valutare il miglioramento ottenuto introducendo nel modello lineare la variabile Z. A tal fine si calcola l’indice di miglioramento multidimensionale: _XZρ_Y²=(_Xσ_Y² – _XZσ_Y²)/ _Xσ_Y², dove _Xσ_Y²= σ_Y² – σ_XY²/σ_X². Dalla lettura dell’indice di miglioramento si evince che l’introduzione di Z ha portato a riduzione/aumento della varianza residua del tot%.
Calcolare la media di X nel rispetto del vincolo di conservazione del tot.	La relazione funzionale che lega il prezzo, la Q e la spesa è: S=XY.Poiché il vincolo di conservazione della spesa totale impone che: ∑ⁿ_i=1s_i=∑ⁿ_i=1x_iy_i e la condizione di equivalenza di Chisini prevede che: ∑ⁿ_i=1x_iy_i = ∑ⁿ_i=1Iy_i, il prezzo medio vale I =∑ⁿ_i=1x_iy_i / ∑ⁿ_i=1y_i
Confrontare la variabilità delle distribuzioni di X, Y, S	Calcolare le medie e le varianze di X, Y e S. Per effettuare il confronto si calcano i coefficienti di variazione: CV_X = σ_X/µ_X etc. da cui emerge la > variabilità.
Stimare l’eterogeneità. Configurare i casi estremi.	Per stimare l’eterogeneità della mutabile si può ricorrere al calcolo dell’indice di Gini considerando come frequenze “il numero di addetti”. Si ottiene γ. I casi estremi sono la massima concentrazione e l’equi-distribuzione.
Si valuti il tasso medio di variazione. Si spieghi ora la dipendenza attraverso un modello lineare. Si confronti la bontà dei modelli individuati. Si faccia una previsione sulla base dei 2 modelli (inserendo i numeri nelle formule).	Valore iniziale(1 + t)ⁿ = valore finale. Dall’andamento del grafico si può capire se il valore se il valore debba esser positivo o negativo. Retta. Per effettuare il confronto, è necessario utilizzare le elaborazioni: X_T, ₁X, (X_T – X)², (₁X – X)². Il modello lineare risulta essere migliore se la somma degli scarti al quadrato dai valori effettivi risulta essere inferiore rispetto al modello col tasso medio.
Si stimi in modo opportuno il numero di Y, valutando la bontà dell’interpolante.	Retta e ρ².
Dopo aver calcolato le medie riferite ad ogni X, si valuti la frazione di varianza totale spiegata dalla retta.	Occorre calcolare le medie condizionate delle Y rispetto alle X. La retta interpolante le medie condizionate ha la stessa equazione della retta di regressione: µ(Y\|X)= µ_y + σ_XY/σ²_X(X – µ_X). Occorre calcolare ₁δ²_Y = ρ²/η_y².Dove η_y² = σ²_Y/σ²_Y e dove: σ²_Y= 1/N∑ⁿ_i=1[µ(y/x) – µ_Y]²fi.
Dopo aver individuato il carattere condizionante (X) e quello condizionato (Y), effettuare uno studio completo della dipendenza di Y da X. E casi limite.	Retta e ρ². I casi limite che si possono presentare sono: ρ=0, che segnala la presenza di in correlazione tra le variabili; ρ=1, che segnala la presenza di un legame diretto perfettamente lineare fra le variabili; ρ=-1, che segnala la presenza di un legame inverso perfettamente lineare tra le variabili; ρ²=η², che segnala la non migliorabilità del modello di regressione lineare semplice, in quanto le medie condizionate sono allineate lungo la retta di regressione ma esiste del residuo non eliminabile.
Dati ∑X, ∑Y, ∑X², ∑Y², ∑XY, ∑X³, ∑X⁴, ∑X²Y prevedere Y dato X ricorrendo ad un modello lineare. Valutare la bontà del modello individuato.	Retta: Y=μ_y–(σ_xy/σ²_x)μ_x + (σ_xy/σ²_x)x dove:Visto che X è dato, lo inserisco nell’equazione finale e prevedo Y.		Le medie sono: μ_y=∑Y/N, μ_X=∑X/N, μ_XY=∑XY/Nσ_XY = μ_XY – μ_X * μ_Y σ²_x= ∑X²/N – μ_X²
	Per valutare la bontà del modello si calcola il rapporto di correlazione lineare ρ². Ciò rende necessario calcolare anche la varianza di Y: σ²_Y= ∑Y²/N – μ_Y².ρ² = σ_XY²/( σ²_x σ²_Y). Fare le solite considerazioni: spiega per il tot% etc.
Rifare la previsione ricorrendo al modello parabolico. Valutarne la bontà.	Parabola: si vedano le formule sul formulario. La bontà del modello è fornita dal rapporto di correlazione parabolico: ₂η_Y².
Confrontare l’efficienza dei 2 modelli.	Il confronto tra l’efficienza dei 2 modelli è dato dall’indice di miglioramento:		_r+1ρ²_Y = (_rσ²_y – _r+1σ²_y)/_rσ²_ydove: ₁σ²_y = σ²_y(1 – ρ²)

Lo sapevi che...