Articoli

4.11: Regressione


Abbiamo già visto esempi nel testo in cui le funzioni lineari e quadratiche vengono utilizzate per modellare un'ampia varietà di fenomeni del mondo reale che vanno dai costi di produzione all'altezza di un proiettile dal suolo. In questa sezione, utilizziamo alcuni strumenti di base dell'analisi statistica per quantificare le tendenze lineari e quadratiche che possiamo vedere nei dati del mondo reale al fine di generare modelli lineari e quadratici. Il nostro obiettivo è fornire al lettore una comprensione dei processi di base coinvolti, ma siamo pronti a indirizzare il lettore a un corso più avanzato per un'esposizione completa di questo materiale. Supponiamo di aver raccolto tre punti dati: ({(1,2), (3,1), (4,3)}). Tracciando questi punti, possiamo vedere chiaramente che non giacciono lungo la stessa linea. Se scegliamo due punti qualsiasi, possiamo trovare una linea contenente entrambi che manca completamente il terzo, ma il nostro obiettivo è trovare una linea che sia in un certo senso "vicina" a tutti i punti, anche se potrebbe non attraversarne nessuno di loro. Il modo in cui misuriamo la "vicinanza" in questo caso è trovare il errore quadratico totale tra i punti dati e la linea. Considera i nostri tre punti dati e la linea (y=frac{1}{2}x + frac{1}{2}). Per ciascuno dei nostri punti dati, troviamo la distanza verticale tra il punto e la linea. Per fare ciò, dobbiamo trovare un punto sulla linea direttamente sopra o sotto ogni punto dati - in altre parole, un punto sulla linea con la stessa coordinata (x) del nostro punto dati. Ad esempio, per trovare il punto sulla linea direttamente sotto ((1,2)), inseriamo (x=1) in (y=frac{1}{2}x + frac{1 }{2}) e otteniamo il punto ((1,1)). Allo stesso modo, otteniamo ((3,1)) per corrispondere a ((3,2)) e (left(4,frac{5}{2} ight)) per (( 4,3)).

Troviamo l'errore quadratico totale (E) prendendo la somma dei quadrati delle differenze delle coordinate (y) di ciascun punto dati e il suo punto corrispondente sulla linea. Per i dati e la riga sopra (E = (2-1)^2+(1-2)^2+left(3-frac{5}{2} ight)^2 = frac{9} {4}). Utilizzando macchinari matematici avanzati, (in particolare Calcolo e Algebra Lineare) è possibile trovare la retta che risulta nel valore più basso di (E). Questa linea si chiama retta di regressione dei minimi quadrati, o talvolta la 'linea di migliore adattamento'. La formula per la linea di miglior adattamento richiede una notazione che non presenteremo fino al capitolo 9, quindi la rivisiteremo in seguito. La calcolatrice grafica può venire in nostro aiuto qui, poiché ha una funzione integrata per calcolare la linea di regressione. Inseriamo i dati ed eseguiamo la funzione di regressione lineare e otteniamo

La calcolatrice ci dice che la linea di miglior adattamento è (y=ax+b) dove la pendenza è (a circa 0,214) e la coordinata (y) dell'intercetta (y) è (b circa 1,428). (Ci limiteremo a utilizzare tre cifre decimali per le nostre approssimazioni.) Usando questa riga, calcoliamo l'errore quadratico totale per i nostri dati come (E circa 1,786). Il valore (r) è il coefficiente di correlazione ed è una misura di quanto i dati siano vicini all'essere sulla stessa linea. Più (|r|) è vicino a (1), migliore è l'adattamento lineare. Poiché (r circa 0,327), questo ci dice che la linea di miglior adattamento non si adatta molto bene - in altre parole, i nostri punti dati non sono vicini all'essere lineari. Il valore (r^2) è chiamato coefficiente di determinazione ed è anche una misura della bontà dell'adattamento.footnote{Rimandiamo il lettore interessato a un corso di Statistica per esplorare il significato di (r) e (r^2).} Tracciare i dati con la relativa regressione la linea risulta nell'immagine qui sotto.

Il nostro primo esempio esamina il consumo di energia negli Stati Uniti negli ultimi 50 anni.

[egin{array}{|c|c|} hline mbox{Anno} & mbox{Consumo energetico,} & mbox{ in Quads} hline 1950 & 34.6 hline 1960 & 45.1 hline 1970 & 67,8 hline 1980 & 78,3 hline 1990 & 84,6 hline 2000 & 98,9 hline end{array}]

L'unità 1 Quad è 1 Quadrilione = (10^{15}) BTU, che è abbastanza calore per aumentare il Lago Erie di circa (1^{circ})F}

Esempio (PageIndex{1}): Consumo energetico

Utilizzando i dati di consumo energetico sopra riportati,

  1. Traccia i dati utilizzando una calcolatrice grafica.
  2. Trova la retta di regressione dei minimi quadrati e commenta la bontà dell'adattamento.
  3. Interpretare la pendenza della linea di miglior adattamento.
  4. Utilizzare la linea di regressione per prevedere il consumo energetico annuo degli Stati Uniti nell'anno (2013).
  5. Usa la retta di regressione per prevedere quando il consumo annuale raggiungerà (120) Quad.

Soluzione

  1. Inserendo i dati nella calcolatrice si ottiene

  1. L'esecuzione di una regressione lineare produce

Possiamo dire sia dal coefficiente di correlazione che dal grafico che la linea di regressione si adatta bene ai dati.

  1. La pendenza della retta di regressione è (a approssimativamente 1.287). Per interpretare ciò, ricorda che la pendenza è il tasso di variazione delle coordinate (y) rispetto alle coordinate (x). Poiché le coordinate (y) rappresentano il consumo energetico in Quad e le coordinate (x) rappresentano anni, una pendenza di (1.287) positiva indica un aumento del consumo energetico annuo al tasso di ( 1.287) Quad all'anno.
  2. Per prevedere il fabbisogno energetico in (2013), sostituiamo (x=2013) nell'equazione della retta di migliore adattamento per ottenere [y = 1.287(2013)-2473.890 circa 116.841.] Il previsto il consumo energetico annuo degli Stati Uniti nel (2013) è di circa (116.841) Quad.
  3. Per prevedere quando il consumo energetico annuale degli Stati Uniti raggiungerà (120) Quad, sostituiamo (y=120) nell'equazione della retta di migliore adattamento per ottenere [120 = 1.287x - 2473.908.] Risolvendo per (x) restituisce (x circa 2015.454). Poiché la linea di regressione è in aumento, interpretiamo questo risultato come se l'utilizzo annuo in (2015) non sarà ancora (120) Quad, ma che in (2016), la domanda sarà maggiore di (120) Quad.

Il nostro prossimo esempio ci offre l'opportunità di trovare un modello non lineare per adattare i dati. Secondo il National Weather Service, le temperature orarie previste per Painesville il 3 marzo 2009 sono state fornite come riassunto di seguito.

[egin{array}{|c|c|} hline mbox{Tempo} & mbox{Temperatura, (^{circ})F} hline 10 mbox{AM} & 17 hline 11 mbox{AM} & 19 hline 12 mbox{PM} & 21 hline 1 mbox{PM} & 23 hline 2 mbox{PM} & 24 hline 3 mbox{PM} & 24 hline 4 mbox{PM} & 23 hline end{array}]

Per inserire questi dati nella calcolatrice, dobbiamo regolare i valori (x), poiché il semplice inserimento dei numeri potrebbe causare confusione. (Vedi perché?) Abbiamo alcune opzioni a nostra disposizione. Forse il modo più semplice è convertire le ore nell'ora dell'orologio a 24 ore in modo che (1) PM sia (13), (2) PM sia (14), ecc. Se inseriamo questi dati nella calcolatrice grafica e tracciare i punti che otteniamo

Mentre l'inizio dei dati sembra lineare, la temperatura inizia a scendere nelle ore pomeridiane. Questo tipo di comportamento ci ricorda le parabole e, in effetti, è possibile trovare una parabola di best fit nello stesso modo in cui abbiamo trovato una linea di best fit. Il processo si chiama regressione quadratica e il suo obiettivo è minimizzare l'errore quadratico minimo dei dati con i loro punti corrispondenti sulla parabola. La calcolatrice ha anche una funzione incorporata per questo che produce

Il coefficiente di determinazione (R^2) sembra ragionevolmente vicino a (1) e il grafico visivamente sembra essere un adattamento decente. Usiamo questo modello nel nostro prossimo esempio.

Esempio (PageIndex{2}): Regressione quadratica

Utilizzando il modello quadratico per i dati di temperatura sopra, prevedere la temperatura più calda della giornata. Quando accadrà questo?

Soluzione

La temperatura massima si verificherà al vertice della parabola. Richiamando la formula del vertice, equazione 2.4, [x = -frac{b}{2a} approssimativamente - frac{9.464}{2(-0.321)} approssimativamente 14,741.] Ciò corrisponde a circa (2 !:!45) PM. Per trovare la temperatura, sostituiamo (x = 14,741) in [y = -0.321 x^2+9.464x - 45,857] per ottenere (y circa 23,899), o (23.899^{circ })F.

I risultati dell'ultimo esempio dovrebbero ricordarti che i modelli di regressione sono proprio questo, modelli. La nostra temperatura più calda prevista è risultata essere (23.899^{circ})F, ma i nostri dati dicono che si scalderà fino a (24^{circ})F. Va tutto bene osservare le tendenze e indovinare un modello, ma un'indagine più approfondita su perché alcuni dati dovrebbero essere di natura lineare o quadratica di solito è in ordine - e questo, molto spesso, è compito degli scienziati.


Questo capitolo ha fornito una breve introduzione all'analisi di regressione, una delle tecniche quantitative più utilizzate nel mondo degli affari. Tuttavia, alcuni errori comuni vengono commessi con i modelli di regressione, quindi è necessario prestare attenzione quando li si utilizza.

Se le ipotesi non sono soddisfatte, i test statistici potrebbero non essere validi. Anche qualsiasi stima dell'intervallo non è valida, sebbene il modello possa ancora essere utilizzato per scopi di previsione.

Correlazione non significa necessariamente causalità. Due variabili (come il prezzo delle automobili e il tuo stipendio annuo) possono essere fortemente correlate l'una all'altra, ma una non sta causando il cambiamento dell'altra. Entrambi possono cambiare a causa di altri fattori come l'economia in generale.

Ottenere Analisi quantitativa per la gestione, 13/e ora con l'apprendimento online di O'Reilly.

I membri di O'Reilly sperimentano la formazione online dal vivo, oltre a libri, video e contenuti digitali di oltre 200 editori.


Analisi della regressione tramite l'esempio, terza edizione Capitolo 4: Diagnostica della regressione: rilevamento delle violazioni del modello | Esempi di libri di testo SPSS

Tabella 4.2, pagina 99: New York Rivers Data: Il t-test per i coefficienti individuali. Nessuna delle osservazioni cancellata.

Equazione (4.18), pagina 102: genera anche il residuo e la leva per la Tabella 4.3 e la Figura 4.6

Figura 4.5, pagina 102: Dati di New York Rivers: grafico a dispersione di Y rispetto a X4

Tabella 4.3, pagina 103: Dati di New York Rivers: i residui standardizzati, ri, ei valori di leva finanziaria, pii dal modello di adattamento 4.18.

NOTA: i valori di leva non corrispondono al libro poiché sono calcolati come valori di leva centrati.

Figura 4.6, pagina 103: Grafici dell'indice di (a) i residui standardizzati, ri e (b) i valori di leva pi.

Tabella 4.4 e Figura 4.7 a pagina 106

Calcola hadi. Poiché l'hadi è costruito utilizzando la leva e non ottenendo numeri di leva accurati, non calcolando l'hadi.

Figura 4.8, pagina 108: Grafico potenziale-residuo

Equazione (4.25), in fondo a pagina 111

Tabella 4.5, pagina 112: dati sulla gara delle colline scozzesi

Figura 4.10, pagina 113. Grafico a rotazione per i dati della gara delle colline scozzesi

Figura 4.11, pagina 114. Grafici delle variabili aggiunte per (a) distanza e (b) salita

utilizzando i coefficienti di regressione per calcolare il grafico residuo più componente


Riportare un errore

Comportamento attuale:
ion-slides ora si comporta in modo strano quando viene posizionato in modali dopo la v4.11.0, gli eventi di tocco non vengono gestiti correttamente e lo scorrimento non funziona, così come il layout viene allungato con un calcolo delle dimensioni errato.

v4.10.3 funziona correttamente.

Comportamento atteso:
Dovrebbe funzionare come prima

Passaggi per riprodurre:
Metti una diapositiva ionica con 2 o 3 foto in una pagina modale e presentala, prova a trascinare a sinistra oa destra, rimarrai bloccato tra le foto.

Altre informazioni:

Il testo è stato aggiornato correttamente, ma sono stati riscontrati questi errori:

Al momento non siamo in grado di convertire l'attività in un problema. Per favore riprova.

Il problema è stato creato con successo ma al momento non siamo in grado di aggiornare il commento.

Liamdebeasi commentato Ott 11, 2019

Grazie per il problema. Potete fornire un repository con il codice necessario per riprodurre questo problema? La versione 4.11.0 ha appena avuto modifiche a Ionic React, quindi nulla nella tua app Ionic Angular dovrebbe essere diverso.

Omardoma commentato Oct 13, 2019

Scusa per la risposta tardiva, ho preparato una demo StackBlitz con il mio codice attuale: https://stackblitz.com/edit/ionic-v4-slides-modal-bug

Tuttavia, la cosa strana è che il bug si verifica in modo non deterministico, a volte accade, a volte no, se dovessi fare un'ipotesi, direi che qualcosa sta bloccando il caricamento delle diapositive e l'attivazione dell'evento ionSlidesDidLoad, ecco perché il funzionalità di scorrimento e il layout è incasinato.

Indagherò ulteriormente e pubblicherò i miei risultati, fino ad allora per favore fatemi sapere se c'è qualcos'altro con cui posso aiutare nel debug.

Liamdebeasi commentato 18 ott 2019

Grazie per il seguito. Non sono in grado di riprodurre questo problema utilizzando il repository che hai fornito. Sta succedendo su una piattaforma particolare (iOS vs Android)?

Omardoma commentato il 22 ottobre 2019

Bene, succede su tutte le piattaforme (Browser, iOS e Android), in pratica succede che lo scorrimento diventa molto glitch e la dimensione delle diapositive diventa molto espansa.

Credo che un nuovo problema #19641 si riferisca allo stesso problema che si verifica su React.

Liamdebeasi commentato il 22 ottobre 2019

Ci sono passaggi particolari da riprodurre che dovrei seguire? Non sono ancora in grado di riprodurre il problema utilizzando StackBlitz.

SimonGolms commentato 23 ott 2019

Posso confermare il bug con l'esempio StackBlitz poiché sono anche interessato dal problema collegato per il pacchetto react.

Sfortunatamente, l'errore si verifica davvero in modo casuale e non può essere realmente riprodotto. Puoi provare a scorrere avanti e indietro più volte con ad es. premuto il pulsante del mouse, chiudi modale e riaprilo e ripeti lo scorrimento. Ripeti il ​​processo più volte fino a quando non viene visualizzato il bug.

Esempio dove succede dopo il primo tentativo:

Omardoma commentato 23 ott 2019

Grazie @SimonGolms per aver dedicato del tempo per illustrare il bug, @liamdebeasi questo è davvero ciò che sta accadendo e, come ho detto, è molto casuale, tuttavia accade parecchio, in realtà è il problema che mi trattiene dall'aggiornamento passato v4 .10.3, poiché la mia app si basa molto sulle diapositive in quanto contiene molti media.

Se c'è qualcosa che possiamo fare per aiutarti a eseguire il debug di più, faccelo sapere!

Omardoma commentato 23 ott 2019 •

Una cosa da notare è che il bug può essere corretto ogni volta che si verifica semplicemente attivando un ridimensionamento della finestra

Marpstar commentato 23 ott 2019

Stiamo riscontrando anche questo problema. Stranamente se cambiamo l'obiettivo del nostro tsconfig su es5 invece di es2015 sembra funzionare in modo coerente.

Omardoma commentato 24 ott 2019

@marpstar È davvero strano. Nel mio caso, non posso davvero cambiare il target in es5 perché sto usando Angular 8 e il suo caricamento differenziale, quindi così facendo lo disabiliterò.

Marpstar commentato 24 ott 2019

@omardoma Sono d'accordo sul fatto che tornare a ES5 non sia l'ideale. Mi piacerebbe vederlo risolto, ma ho pensato che valesse la pena menzionare il bocconcino ES5 per chiunque tenti di risolvere.

Omardoma commentato 24 ott 2019 •

@marpstar Sì, sicuramente, grazie mille per averlo menzionato, ci tornerò se il problema non è stato risolto rapidamente!

Omardoma commentato Oct 30, 2019

@liamdebeasi Qualche aggiornamento su questo problema, per favore? Vogliamo davvero aggiornare la nostra versione Ionic all'ultima per ottenere alcune correzioni di bug di cui abbiamo bisogno, ma questo problema ci sta trattenendo

SimonGolms commentato 30 ott 2019 •

Una cosa da notare è che il bug può essere corretto ogni volta che si verifica semplicemente attivando un ridimensionamento della finestra

Buon suggerimento. Sono stato in grado di risolverlo con la seguente soluzione esemplare per il mio caso d'uso.

Modifica: nel caso in cui questa soluzione alternativa non funzioni, controlla questa.

Liamdebeasi commentato Oct 30, 2019

Sono stato in grado di riprodurre questo problema. Indagherò un po' di più su questo. Grazie!

Liamdebeasi commentato Oct 30, 2019

Sono stato in grado di riprodurre questo bug in Ionic 4.10.0, quindi non sembra una regressione 4.11. Approfondirò un po' questo aspetto e vedrò dove è apparso originariamente il bug.

Omardoma commentato 30 ott 2019 •

Ottimo, grazie per averlo esaminato, sentiti libero di rinominare il titolo del problema se si applica anche alla 4.10.x. L'ho chiamato in questo modo perché non mi è mai successo se non dopo 4.11.x

Omardoma commentato Oct 30, 2019

Una cosa da notare è che il bug può essere corretto ogni volta che si verifica semplicemente attivando un ridimensionamento della finestra

Buon suggerimento. Sono stato in grado di risolverlo con la seguente soluzione esemplare per il mio caso d'uso.

Fantastico, risolverà in questo modo fino a quando non verrà risolto, grazie amico.

Ctcampbell commentato Nov 18, 2019

FWIW quella soluzione alternativa non funziona per me.

Ctcampbell commentato il 25 novembre 2019

Sono stati fatti progressi su questo?

Netsesame2 ha commentato il 4 dic 2019 •

Il mio problema è che le diapositive non scorrono in modo modale quando vengono aperte per la prima volta. Apri di nuovo il modale, le diapositive funzionano.

Seguendo il suggerimento di cui sopra, ho risolto il problema semplicemente aggiungendo una chiamata .update():

Bohdanbirdie ha commentato il 4 dic 2019 •

@netsesame2 grazie per il suggerimento, sembra che abbia funzionato per me

+1 a questo problema però
Sto avendo questo su React. Non funziona su iOS ma funziona nel browser

Tiagomsmagalhaes commentato dic 10, 2019

Ho riscontrato questo problema senza il caso d'uso modale, solo un semplice instradamento avanti e indietro.

Dopo aver provato la soluzione ChangeDetectorRef o @SimonGolms senza successo, ho aggiunto un ngIf al mio slider-wrapper e impostato la variabile su true su AfterContentChecked e ha funzionato senza intoppi.

Non ho provato su hook precedenti.

Ebk46 commentato Jan 3, 2020

Anche io ho questo problema. Sto usando React 4.11.7 e, oltre al problema dello scorrimento, ho anche un problema in cui a volte la diapositiva semplicemente non funzionerà affatto. Posso scorrere ed emette il onIonSlideNextStart / . PrevStart eventi ma la diapositiva stessa non cambia.

Ctcampbell commentato il 5 gennaio 2020

C'è qualche possibilità che questo venga risolto?

Questo commento è stato contrassegnato come fuori tema.

Liamdebeasi commentato Jan 13, 2020 •

Nascondo il tuo commento in quanto fuori tema e non costruttivo per risolvere questo problema. Proverò a dare un'occhiata a questo problema questa settimana.

Abbiamo riconosciuto che questo è un problema qui. Tuttavia, stiamo esaminando una risoluzione, poiché appare in modo casuale è un po' difficile da risolvere. Inoltre, alcuni utenti di questo thread hanno fornito soluzioni temporanee. Pubblicherò un altro aggiornamento qui quando avrò ulteriori informazioni da condividere.

SimonGolms commentato 11 feb 2020 •

Ciao @liamdebeasi, ci sono novità riguardo questo bug?
Ho notato che dopo aver chiamato modal.present() diverse volte con un componente <ion-slides>, gli elementi <ion-slide> nidificati non vengono gestiti correttamente. Nel caso in cui venga visualizzato questo bug, swiper.length() restituisce 0 . Durante il debug ho anche notato che il bug si verifica più spesso quando utilizzo <ion-content fullscreen="true"> nel mio componente.

Sebbene la mia prima soluzione alternativa sfortunatamente non abbia funzionato davvero, voglio condividere un'altra possibile soluzione alternativa, se non fossi stato in grado di riprodurre il bug dopo test intensivi.

NikolaSviluppatore commentato il 20 febbraio 2020

C'è qualche soluzione alternativa per reagire?

FranzSw commentato Mar 2, 2020 •

Mi piacerebbe avere notizie in merito.

@NikolaDeveloper Ecco una correzione / soluzione alternativa a una riga per React:

Fondamentalmente chiama update su IonSlides dopo il caricamento. È bello perché non ha bisogno di alcun riferimento o variabile aggiuntiva.

Robsonos commentato 20 aprile 2020 •

Risolto invece con l'hook ionViewDidEnter:

Kheftel commentato il 9 agosto 2020

Per chiunque fosse interessato, con @ionic/angular 5.2.1, ho dovuto modificare la soluzione alternativa con la seguente affinché l'impaginazione funzionasse sul secondo carico del modale. Sembra che tu debba usare ElementRef<IonSlides> invece di usare IonSlides direttamente con ViewChild . Mi ci sono voluti un paio di giorni per capirlo, quindi sto postando nel caso qualcun altro fosse bloccato su di esso.

Dimitriboquet commentato 12 agosto 2020 •

@kheftel Se hai solo una diapositiva ionica nel tuo componente, puoi farlo per ottenere IonSlides senza ElementRef:

Kheftel commentato 12 agosto 2020 •

@kheftel Se hai solo una diapositiva ionica nel tuo componente, puoi farlo per ottenere IonSlides senza ElementRef:

L'ho provato prima, ma purtroppo non ha funzionato e la mia variabile diapositive era ancora un ElementRef e iirc il suo elemento nativo non aveva una funzione di aggiornamento. In ogni caso this.slides.update() non era una funzione.

Rastafan commentato set 28, 2020 •

Ci siamo imbattuti in qualcosa di simile in questi giorni, usando Ionic + Angular. Il rendering di una diapositiva ionica all'interno di un modale causa il rendering errato del componente delle diapositive ionico.

Più specificamente, le diapositive sono rese "centrate" all'interno delle diapositive ioniche. Abbiamo tre diapositive, quindi vediamo la seconda sullo schermo (leggermente fuori posto), e ispezionando il dom la prima diapositiva è a sinistra, fuori dallo schermo.

Stiamo facendo scorrere le diapositive in modo programmatico utilizzando i pulsanti e funzionano, ma sono resi completamente fuori posto.

Il trucco slides.update non ha risolto il problema.

Nascondere le diapositive con *ngIf e mostrarle dopo che ionViewDidEnter le ha rese correttamente, ma continuano a lampeggiare rese cattive prima di essere rese buone, il che è piuttosto brutto.

Questo sembra essere correlato al rendering delle diapositive mentre sono fuori dalla vista o in un momento in cui non possono accedere alla dimensione della vista corretta (proprio come ipotesi, non ne sono completamente sicuro).


4.11: Regressione

Un modello ARIMA può essere considerato come un tipo speciale di modello di regressione, in cui la variabile dipendente è stata stazionaria e le variabili indipendenti sono tutti ritardi della variabile dipendente e/o ritardi degli errori, quindi è semplice in linea di principio estendere un modello ARIMA per incorporare le informazioni fornite da indicatori anticipatori e altre variabili esogene: è sufficiente aggiungere uno o più regressori all'equazione di previsione.

In alternativa, puoi pensare a un modello ibrido ARIMA/regressione come un modello di regressione che include una correzione per errori autocorrelati. Se hai adattato un modello di regressione multipla e scopri che i suoi grafici ACF e PACF residui mostrano una "firma" autoregressiva o media mobile identificabile (ad esempio, alcuni pattern significativi di autocorrelazioni e/o autocorrelazioni parziali ai primi ritardi e/o ritardo stagionale), allora potresti prendere in considerazione l'aggiunta di termini ARIMA (ritardi della variabile dipendente e/o degli errori) al modello di regressione per eliminare l'autocorrelazione e ridurre ulteriormente l'errore quadratico medio. Per fare ciò, dovresti semplicemente riadattare il modello di regressione come un modello ARIMA con regressori e specificare i termini AR e/o MA appropriati per adattare il modello di autocorrelazione che hai osservato nei residui originali.

La maggior parte dei software di previsione di fascia alta offre una o più opzioni per combinare le funzionalità di ARIMA e modelli di regressione multipli. Nella procedura di previsione in Statgraphics, puoi farlo specificando "ARIMA" come tipo di modello e quindi premendo il pulsante "Regressione" per aggiungere regressori. (Sei limitato a 5 regressori aggiuntivi, ma un modello ibrido ARIMA/regressione con più di 5 regressori probabilmente sarebbe comunque troppo "barocco".) Quando aggiungi un regressore a un modello ARIMA in Statgraphics, aggiunge letteralmente il regressore a il lato destro dell'equazione di previsione ARIMA. Per utilizzare un caso semplice, supponiamo di adattare prima un modello ARIMA(1,0,1) senza regressori. Quindi l'equazione di previsione adattata da Statgraphics è:

che può essere riscritto come:

(Nota: questa è una forma matematica standard che viene spesso utilizzata per i modelli ARIMA. Tutti i termini che coinvolgono la variabile dipendente, ovvero tutti i termini e le differenze AR, sono raccolti sul lato sinistro dell'equazione, mentre tutti i termini che coinvolgono gli errori, ovvero i termini MA, sono raccolti sul lato destro.) Ora, se aggiungi un regressore X al modello di previsione, l'equazione adattata da Statgraphics è:

Pertanto, la parte AR del modello (e anche la trasformazione differenziante, se presente) viene applicata alla variabile X esattamente nello stesso modo in cui viene applicata alla variabile Y Prima X viene moltiplicato per il coefficiente di regressione. Ciò significa effettivamente che il modello ARIMA(1,0,1) è adattato agli errori della regressione di Y su X (cioè, la serie "Y meno beta X").

Come puoi sapere se potrebbe essere utile aggiungere un regressore a un modello ARIMA? Un approccio sarebbe quello di salvare i RESIDUI del modello ARIMA e poi guardarli correlazioni incrociate con altre potenziali variabili esplicative. Ad esempio, ricordiamo che abbiamo precedentemente adattato un modello di regressione alle vendite di auto destagionalizzate, in cui la variabile LEADIND (indice di undici indicatori economici anticipatori) si è rivelata leggermente significativa oltre ai ritardi della variabile delle vendite stazionarie. Forse LEADIND sarebbe anche utile come regressore nel modello ARIMA stagionale che abbiamo successivamente adattato alle vendite di auto.

Per testare questa ipotesi, sono stati salvati i RESIDUI del modello ARIMA(0,1,1)x(0,1,1) montati su AUTOSALE. Le loro correlazioni incrociate con DIFF(LOG(LEADIND)), tracciate nella procedura Metodi descrittivi, sono le seguenti:

(Un paio di punti tecnici minori da notare qui: abbiamo registrato e differenziato LEADIND per stazionarizzarlo perché anche i RESIDUI del modello ARIMA sono registrati e differenziati, ovvero espressi in unità di variazione percentuale. Inoltre, la procedura Metodi descrittivi, come la procedura di Previsione, non ama le variabili che iniziano con troppi valori mancanti, qui i valori mancanti all'inizio delle variabili RESIDUI sono stati sostituiti da zero--digitato a mano--prima di eseguire la procedura Metodi descrittivi. In realtà, la procedura di previsione dovrebbe disegnare automaticamente i grafici di correlazione incrociata dei residui rispetto ad altre variabili, ma il grafico etichettato come "Plot di correlazione incrociata residuo" mostra semplicemente le correlazioni incrociate del variabile di ingresso rispetto ad altre variabili.)

Vediamo che la correlazione incrociata più significativa è al lag 0, ma sfortunatamente non possiamo usarla per le previsioni un mese avanti. Invece, dobbiamo cercare di sfruttare le correlazioni incrociate più piccole ai ritardi 1 e/o 2. Come test rapido per verificare se è probabile che i ritardi di DIFF(LOG(LEADIND)) aggiungano qualcosa al nostro modello ARIMA, possiamo usare il Multiple Procedura di regressione per regredire RESIDUALS sui ritardi di DIFF(LOG(LEADIND)). Ecco il risultato della regressione di RESIDUALS su LAG(DIFF(LOG(LEADIND)),1):

Il valore R-quadrato di solo 3,66% suggerisce che non è possibile un grande miglioramento. (Se vengono utilizzati due ritardi di DIFF(LOG(LEADIND)), l'R-quadrato aumenta solo al 4,06%.) Se torniamo alla procedura ARIMA e aggiungiamo LAG(DIFF(LOG(LEADIND)),1) come regressore , otteniamo i seguenti risultati di adattamento del modello: (Nota tecnica minore qui: abbiamo memorizzato i valori di LAG(DIFF(LOG(LEADIND)),1) in una nuova colonna, riempiendo i due valori mancanti all'inizio con zero, e assegnato alla nuova colonna il nome LGDFLGLEAD.) Vediamo che quando viene stimato un coefficiente per il ritardo di DIFF(LOG(LEADIND)) contemporaneamente con gli altri parametri del modello è ancora meno significativo di quanto non fosse nel modello di regressione per RESIDUI. Il miglioramento dell'errore quadratico medio è troppo piccolo per essere evidente.


Contenuti

Lasso è stato introdotto per migliorare l'accuratezza della previsione e l'interpretabilità dei modelli di regressione. Seleziona un insieme ridotto delle covariate note per l'uso in un modello. [2] [1]

Prima del lazo, il metodo più utilizzato per la scelta delle covariate era la selezione graduale. Questo approccio migliora l'accuratezza della previsione solo in alcuni casi, ad esempio quando solo poche covariate hanno una forte relazione con il risultato. Tuttavia, in altri casi, può aumentare l'errore di previsione.

A quel tempo, la regressione della cresta era la tecnica più popolare per migliorare l'accuratezza della previsione. La regressione Ridge migliora l'errore di previsione riducendo la somma dei quadrati dei coefficienti di regressione a un valore inferiore a un valore fisso per ridurre l'overfitting, ma non esegue la selezione delle covariate e quindi non aiuta a rendere il modello più interpretabile.

Lasso raggiunge entrambi questi obiettivi costringendo la somma del valore assoluto dei coefficienti di regressione a essere inferiore a un valore fisso, il che forza alcuni coefficienti a zero, escludendoli dall'impatto della previsione. Questa idea è simile alla regressione della cresta, che riduce anche la dimensione dei coefficienti, tuttavia la regressione della cresta tende a impostare molti meno coefficienti a zero.

Minimi quadrati Modifica

e quindi è normale lavorare con variabili che sono state rese a media zero. Inoltre, le covariate sono tipicamente standardizzate ( ∑ i = 1 N x i 2 = 1 ) ^X_^<2>=1 ight)> in modo che la soluzione non dipenda dalla scala di misura.

Può essere utile riscrivere

Covariate ortonormali Modifica

Si possono ora considerare alcune proprietà di base dello stimatore lazo.

Nella regressione della cresta l'obiettivo è minimizzare

La regressione Ridge riduce tutti i coefficienti di un fattore uniforme di ( 1 + N λ ) − 1 > e non azzera alcun coefficiente.

Può anche essere paragonato alla regressione con la migliore selezione di sottoinsiemi, in cui l'obiettivo è minimizzare

Pertanto, le stime del lazo condividono le caratteristiche sia della cresta che della regressione di selezione del miglior sottoinsieme poiché entrambi riducono l'entità di tutti i coefficienti, come la regressione della cresta e ne impostano alcuni a zero, come nel miglior caso di selezione del sottoinsieme. Inoltre, mentre la regressione della cresta ridimensiona tutti i coefficienti di un fattore costante, lazo invece traduce i coefficienti verso lo zero di un valore costante e li imposta a zero se lo raggiungono.

Covariate correlate Modifica

La regolarizzazione del lazo può essere estesa ad altre funzioni obiettivo come quelle per modelli lineari generalizzati, equazioni di stima generalizzate, modelli a rischi proporzionali e stimatori M. [2] [3] Data la funzione obiettivo

la versione regolarizzata del lazo dello stimatore S la soluzione a

Interpretazione geometrica Modifica

Lazo può impostare i coefficienti a zero, mentre la regressione della cresta superficialmente simile no. Ciò è dovuto alla differenza nella forma dei loro limiti di vincolo. Sia la regressione lazo che quella cresta possono essere interpretate come minimizzanti la stessa funzione obiettivo

Rendere λ più facile da interpretare con un compromesso tra precisione e semplicità Modifica

Il lazo può essere ridimensionato in modo che diventi facile anticipare e influenzare il grado di restringimento associato a un dato valore di λ . [6] Si assume che X sia standardizzato con z-score e che y sia centrato (media zero). Sia β 0 > rappresentino i coefficienti di regressione ipotizzati e siano b O L S > fare riferimento alle soluzioni dei minimi quadrati ordinari ottimizzate per i dati. Possiamo quindi definire la Lagrangiana come un compromesso tra l'accuratezza nel campione delle soluzioni ottimizzate per i dati e la semplicità di attenersi ai valori ipotizzati. Questo risulta in

Interpretazione bayesiana Modifica

Proprio come la regressione ridge può essere interpretata come regressione lineare per la quale ai coefficienti sono state assegnate distribuzioni precedenti normali, lasso può essere interpretato come regressione lineare per la quale i coefficienti hanno distribuzioni precedenti di Laplace. La distribuzione di Laplace ha un picco netto a zero (la sua prima derivata è discontinua a zero) e concentra la sua massa di probabilità più vicina a zero rispetto alla distribuzione normale. Ciò fornisce una spiegazione alternativa del motivo per cui il lazo tende a impostare alcuni coefficienti a zero, mentre la regressione della cresta no. [2]

Interpretazione del rilassamento convesso Modifica

Le varianti del lazo sono state create per rimediare ai limiti della tecnica originale e per rendere il metodo più utile per problemi particolari. Quasi tutti si concentrano sul rispetto o sullo sfruttamento delle dipendenze tra le covariate.

La regolarizzazione della rete elastica aggiunge un'ulteriore penalità simile alla regressione della cresta che migliora le prestazioni quando il numero di predittori è maggiore della dimensione del campione, consente al metodo di selezionare insieme variabili fortemente correlate e migliora l'accuratezza complessiva della previsione. [5]

Il lazo di gruppo consente di selezionare gruppi di covariate correlate come una singola unità, il che può essere utile nelle impostazioni in cui non ha senso includere alcune covariate senza altre. [8] Ulteriori estensioni del lazo di gruppo eseguono la selezione variabile all'interno dei singoli gruppi (lazo di gruppo sparso) e consentono la sovrapposizione tra i gruppi (lazo di gruppo sovrapposto). [9] [10]

Il lazo fuso può spiegare le caratteristiche spaziali o temporali di un problema, ottenendo stime che corrispondono meglio alla struttura del sistema. [11] I modelli regolati con lazo possono essere adattati utilizzando tecniche che includono metodi subgradient, regressione del minimo angolo (LARS) e metodi del gradiente prossimale. Determinare il valore ottimale per il parametro di regolarizzazione è una parte importante per garantire che il modello funzioni correttamente, in genere viene scelto utilizzando la convalida incrociata.

Rete elastica Modifica

Nel 2005, Zou e Hastie hanno introdotto la rete elastica. [5] Quando P > n (il numero di covariate è maggiore della dimensione del campione) il lazo può selezionare solo n covariate (anche quando più sono associate al risultato) e tende a selezionare una covariata da qualsiasi insieme di covariate altamente correlate. Inoltre, anche quando n > P, la regressione della cresta tende a dare risultati migliori in presenza di covariate fortemente correlate.

La rete elastica estende il lazo aggiungendo un ulteriore ℓ 2 > termine di penalità dando

che equivale a risolvere

Questo problema può essere scritto in una semplice forma lazo

Quindi il risultato della penalità della rete elastica è una combinazione degli effetti delle penalità del lazo e della cresta.

è la matrice di correlazione campionaria perché le x sono normalizzate.

Lazo di gruppo Modifica

Nel 2006, Yuan e Lin hanno introdotto il lazo di gruppo per consentire la selezione congiunta di gruppi predefiniti di covariate all'interno o all'esterno di un modello. [8] Ciò è utile in molti contesti, forse più ovviamente quando una variabile categoriale è codificata come una raccolta di covariate binarie. In questo caso, il gruppo lazo può garantire che tutte le variabili che codificano la covariata categoriale siano incluse o escluse insieme. Un'altra impostazione in cui il raggruppamento è naturale è negli studi biologici. Poiché i geni e le proteine ​​spesso si trovano in percorsi noti, quali percorsi sono correlati a un risultato possono essere più significativi del fatto che lo siano i singoli geni. La funzione obiettivo per il lazo di gruppo è una generalizzazione naturale dell'obiettivo lazo standard

Lazo fuso Modifica

In alcuni casi, il fenomeno in studio può avere importanti strutture spaziali o temporali che devono essere considerate durante l'analisi, come serie temporali o dati basati su immagini. Nel 2005, Tibshirani e colleghi hanno introdotto il lazo fuso per estendere l'uso del lazo a questo tipo di dati. [11] La funzione obiettivo del lazo fuso è

Il primo vincolo è il vincolo lazo, mentre il secondo penalizza direttamente grandi cambiamenti rispetto alla struttura temporale o spaziale, che costringe i coefficienti a variare dolcemente per riflettere la logica sottostante del sistema. Lazo cluster [12] è una generalizzazione del lazo fuso che identifica e raggruppa le covariate rilevanti in base ai loro effetti (coefficienti). L'idea di base è quella di penalizzare le differenze tra i coefficienti in modo da raggruppare quelli diversi da zero. Questo può essere modellato utilizzando la seguente regolarizzazione:

Al contrario, le variabili possono essere raggruppate in gruppi altamente correlati e quindi è possibile estrarre una singola covariata rappresentativa da ciascun cluster. [13]

Esistono algoritmi che risolvono il problema del lazo fuso e alcune sue generalizzazioni. Gli algoritmi possono risolverlo esattamente in un numero finito di operazioni. [14]

Quasi-norme e regressione del ponte Modifica

Si sostiene che le quasi-norme frazionarie ℓ p > ( 0 < p < 1 ) forniscono risultati più significativi nell'analisi dei dati sia teoricamente che empiricamente. [17] La ​​non convessità di queste quasi-norme complica il problema di ottimizzazione. Per risolvere questo problema, viene sviluppata una procedura di minimizzazione delle aspettative [18] e implementata [15] per la minimizzazione della funzione

L'algoritmo efficiente per la minimizzazione si basa sull'approssimazione quadratica a tratti della crescita subquadratica (PQSQ). [18]

Lazo adattivo Modifica

Il lazo adattivo è stato introdotto da Zou nel 2006 per la regressione lineare [19] e da Zhang e Lu nel 2007 per la regressione a rischi proporzionali. [20]

Prima lazo Modifica

Il lazo precedente è stato introdotto per i modelli lineari generalizzati da Jiang et al. nel 2016 per incorporare informazioni preliminari, come l'importanza di alcune covariate. [21] Nel lazo precedente, tali informazioni sono riassunte in pseudo risposte (chiamate risposte precedenti) y ^ p >^ >> e poi alla consueta funzione obiettivo viene aggiunta un'ulteriore funzione criterio con una penalità al lazo. Senza perdita di generalità, nella regressione lineare, la nuova funzione obiettivo può essere scritta come

Il lazo a priori è più efficiente nella stima e nella previsione dei parametri (con un errore di stima e un errore di previsione più piccoli) quando l'informazione a priori è di alta qualità ed è robusta rispetto all'informazione a priori di bassa qualità con una buona scelta del parametro di bilanciamento eta >.

La funzione di perdita del lazo non è differenziabile, ma è stata sviluppata un'ampia varietà di tecniche dall'analisi convessa e dalla teoria dell'ottimizzazione per calcolare il percorso delle soluzioni del lazo. Questi includono la discesa delle coordinate, [22] metodi del subgradiente, regressione del minimo angolo (LARS) e metodi del gradiente prossimale.[23] I metodi subgradienti sono la naturale generalizzazione dei metodi tradizionali come la discesa del gradiente e la discesa del gradiente stocastico al caso in cui la funzione obiettivo non è differenziabile in tutti i punti. LARS è un metodo strettamente legato ai modelli lazo e in molti casi consente loro di essere adattati in modo efficiente, anche se potrebbe non funzionare bene in tutte le circostanze. LARS genera percorsi di soluzione completi. [23] I metodi prossimali sono diventati popolari grazie alla loro flessibilità e alle loro prestazioni e sono un'area di ricerca attiva. La scelta del metodo dipenderà dalla particolare variante di lazo, dai dati e dalle risorse disponibili. Tuttavia, i metodi prossimali generalmente funzionano bene.

I criteri di informazione come il criterio di informazione bayesiano (BIC) e il criterio di informazione di Akaike (AIC) potrebbero essere preferibili alla convalida incrociata, perché sono più veloci da calcolare e le loro prestazioni sono meno volatili in piccoli campioni. [24] Un criterio di informazione seleziona il parametro di regolarizzazione dello stimatore massimizzando l'accuratezza nel campione di un modello e penalizzando il suo numero effettivo di parametri/gradi di libertà. Zou et al. proposto di misurare i gradi di libertà effettivi contando il numero di parametri che deviano da zero. [25] L'approccio dei gradi di libertà è stato considerato imperfetto da Kaufman e Rosset [26] e Janson et al., [27] perché i gradi di libertà di un modello potrebbero aumentare anche quando è più penalizzato dal parametro di regolarizzazione. In alternativa, la misura di semplicità relativa sopra definita può essere utilizzata per contare il numero effettivo di parametri. [24] Per il lazo, questa misura è data da

LASSO è stato applicato in economia e finanza ed è stato trovato per migliorare la previsione e per selezionare variabili a volte trascurate, ad esempio nella letteratura sulla previsione del fallimento aziendale, [28] o nella previsione delle imprese ad alta crescita. [29]


4.8 Modelli iniziali

Siamo interessati principalmente alle differenze nella criminalità violenta tra i tipi istituzionali che controllano la differenza nelle regioni, quindi adattiamo un modello con la regione, il tipo istituzionale e la nostra compensazione. Si noti che la regione centrale è il livello di riferimento nel nostro modello.

Dal nostro modello, il nord-est e il sud differiscono significativamente dalla regione centrale (p= 0,00000037 e p=0,000924, rispettivamente). Il coefficiente stimato di 0,778 significa che il tasso di criminalità violenta per 1.000 nel Nordest è quasi 2,2 ( (e^<0.778>) ) volte quello della regione centrale che controlla per il tipo di scuola. Un intervallo di confidenza di tipo Wald per questo fattore può essere costruito calcolando prima un CI per il coefficiente (0.778 (pm) (1.96 cdot 0.153) ) e poi esponendo a potenza (da 1.61 a 2.94).

4.8.1 Differenze onestamente significative di Tukey

È possibile effettuare confronti con regioni diverse dalla regione centrale modificando la regione di riferimento. Se vengono effettuati molti confronti, sarebbe meglio regolare per confronti multipli utilizzando un metodo come Differenze onestamente significative di Tukey, che considera tutti i confronti a coppie tra regioni. Questo metodo aiuta a controllare il gran numero di falsi positivi che vedremmo se eseguissimo più t-test confrontando i gruppi. La differenza onestamente significativa confronta una differenza media standardizzata tra due gruppi con un valore critico da una distribuzione di intervallo studentizzata.

Nel nostro caso, Differenze onestamente significative di Tukey valuta simultaneamente tutte e 10 le differenze medie tra coppie di regioni. Troviamo che il nordest ha tassi significativamente più alti di crimini violenti rispetto alle regioni centrali, del Midwest e occidentali, mentre il sud ha tassi significativamente più alti di crimini violenti rispetto al centro e al midwest, controllando per il tipo di istituzione. Nel modello primario, l'indicatore di Ateneo è significativo e, dopo aver esponenziato il coefficiente, può essere interpretato come un aumento di circa ( (e^<0.280>) ) 32% del tasso di criminalità violenta sui college dopo il controllo per regione.

Questi risultati suggeriscono certamente differenze significative nelle regioni e nel tipo di istituto. Tuttavia, i risultati dell'EDA suggeriscono che l'effetto del tipo di istituto può variare a seconda della regione, quindi consideriamo un modello con un'interazione tra regione e tipo.

Questi risultati forniscono prove convincenti di un'interazione tra l'effetto della regione e il tipo di istituzione. Un test di drop-in-deviance come quello che abbiamo effettuato nel caso di studio precedente conferma la significatività del contributo dell'interazione a questo modello. Abbiamo prove statisticamente significative ( (chi^2=71.98, df=4, p<.001) ) che la differenza tra college e università nel tasso di criminalità violenta varia in base alla regione. Ad esempio, il nostro modello stima che i tassi di criminalità violenta siano 13,6 ( (e^<.196+2.411>) ) volte più alti nelle università occidentali rispetto ai college, mentre nel nord-est stimiamo che i tassi di criminalità violenta siano 2,4 ( (frac<1>>) ) volte superiore nei college.

La devianza residua (276,70 con 70 df) suggerisce una significativa mancanza di adattamento nel modello di interazione (p < .001). Una possibilità è che ci siano altre importanti covariate che potrebbero essere utilizzate per descrivere le differenze nei tassi di criminalità violenta. Senza ulteriori covariate da considerare, cerchiamo osservazioni estreme, ma abbiamo già eliminato la più estrema delle osservazioni.

In assenza di altre covariate o osservazioni estreme, consideriamo la sovradispersione come una possibile spiegazione della significativa mancanza di adattamento.


Analisi di marketing: tecniche basate sui dati con Microsoft Excel (2014)

Un'esigenza comune nell'analisi di marketing è la previsione delle vendite di un prodotto. Questo capitolo continua la discussione su previsione causale quanto attiene a questa esigenza. Nella previsione causale, si tenta di prevedere una variabile dipendente (di solito chiamata Y) da una o più variabili indipendenti (di solito indicata come X1, X2, &hellip, Xn). In questo capitolo la variabile dipendente Y di solito è uguale alle vendite di un prodotto durante un determinato periodo di tempo.

A causa della sua semplicità, la regressione univariata (come discusso nel capitolo 9, &ldquoRegressione lineare semplice e correlazione&rdquo) potrebbe non spiegare tutta o anche la maggior parte della varianza in Y. Pertanto, per ottenere informazioni migliori e più accurate sulle relazioni spesso complesse tra una variabile di interesse e dei suoi predittori, nonché per una migliore previsione, è necessario spostarsi verso la regressione multipla in cui viene utilizzata più di una variabile indipendente per prevedere Y. L'utilizzo della regressione multipla può portare a una migliore accuratezza della previsione insieme a una migliore comprensione delle variabili che effettivamente causa Y.

Ad esempio, un modello di regressione multipla può dirti come una riduzione del prezzo aumenta le vendite o come una riduzione della pubblicità diminuisce le vendite. Questo capitolo utilizza la regressione multipla nelle seguenti situazioni:

· Impostazione delle quote di vendita per le vendite di computer in Europa

· Previsione delle vendite trimestrali di auto negli Stati Uniti

· Comprendere come la previsione delle vendite dal prezzo e dalla pubblicità richieda la conoscenza delle non linearità e dell'interazione

· Capire come verificare se le ipotesi necessarie per la regressione multipla sono soddisfatte

· Come la multicollinearità e/o l'autocorrelazione possono disturbare un modello di regressione

Introduzione alla regressione lineare multipla

In un modello di regressione lineare multipla, puoi provare a prevedere una variabile dipendente da variabili indipendenti X1, X2, &hellipXn. Il modello ipotizzato è il seguente:

1

&punto medio Bio si chiama coefficiente di regressione per la variabile indipendente Xio.

Il termine di errore è una variabile casuale che cattura il fatto che i modelli di regressione in genere non si adattano perfettamente ai dati, piuttosto si avvicinano alle relazioni nei dati. Un valore positivo del termine di errore si verifica se il valore effettivo della variabile dipendente supera il valore previsto (B0 +B1X1 + B2X2 + &hellipBnXn). Un valore negativo del termine di errore si verifica quando il valore effettivo della variabile dipendente è inferiore al valore previsto.

Il termine di errore è necessario per soddisfare le seguenti ipotesi:

· Il termine di errore è distribuito normalmente.

· Si presume che la variabilità o la diffusione del termine di errore non dipenda dal valore della variabile dipendente.

· Per i dati di serie temporali i valori successivi del termine di errore devono essere indipendenti. Ciò significa, ad esempio, che se per un'osservazione il termine di errore è un numero positivo grande, questo non ti dice nulla sul valore dei termini di errore successivi.

Nella sezione "Verifica della validità di più ipotesi di regressione" di questo capitolo imparerai come determinare se le ipotesi dell'analisi di regressione sono soddisfatte e cosa fare se le ipotesi non sono soddisfatte.

Per illustrare al meglio come utilizzare la regressione multipla, il resto del capitolo presenta esempi del suo utilizzo basati su una società di vendita di computer fittizia, HAL Computer. HAL imposta le quote di vendita per tutti i venditori in base al loro territorio. Per stabilire quote eque, HAL ha bisogno di un modo per prevedere con precisione le vendite di computer nel territorio di ogni persona. Dal 2011 Pocket World in cifre di L'economista, è possibile ottenere i seguenti dati dal 2007 (come mostrato in Figura 10.1 e file Europe.xlsx) per i paesi europei:

· Vendite di computer (in milioni di dollari USA)

· Vendite pro capite (in dollari USA)

· Tasso medio di disoccupazione 2002&ndash2007

· Percentuale del PIL speso per l'istruzione

Figura 10-1: Dati informatici HAL

Questo dato è dati trasversali perché la stessa variabile dipendente viene misurata in luoghi diversi nello stesso momento. Nel dati di serie temporali, la stessa variabile dipendente viene misurata in momenti diversi.

Per applicare il modello di regressione lineare multipla all'esempio, = Spesa per computer per capitale, n = 3, X1 = PIL pro capite, X2 = Tasso di disoccupazione, e X3 = Percentuale del PIL spesa per l'istruzione.

Esecuzione di una regressione con il componente aggiuntivo Analisi dati

È possibile utilizzare il componente aggiuntivo Analisi dati di Excel per determinare l'equazione di regressione lineare multipla più adatta a un determinato set di dati. Vedere il Capitolo 9 per un aggiornamento sulle istruzioni di installazione per Data Analysis Add-In.

Per eseguire una regressione, selezionare Analisi dati nel Gruppo analisi nella scheda Dati, quindi selezionare Regressione. Quando viene visualizzata la finestra di dialogo Regressione, compilarla, come mostrato in Figura 10.2.

&punto medio Il L'intervallo (I4:I25) include i dati che si desidera prevedere (vendite computer pro capite), inclusa l'etichetta della colonna.

&punto medio Il X L'intervallo (J4:L25) include quei valori delle variabili indipendenti per ciascun paese, inclusa l'etichetta della colonna.

&punto medio Seleziona la casella Etichette perché l'intervallo X e l'intervallo Y includono etichette. Se non includi etichette nell'intervallo X e Y, Excel utilizzerà etichette generiche come Y, X1, X2,&hellip,Xn che sono difficili da interpretare.

&punto medio Il nome del foglio di lavoro Regression1 è la posizione in cui è posizionato l'output.

&punto medio Selezionando la casella Residui, puoi assicurarti che Excel genererà l'errore (per ogni errore di osservazione = valore effettivo di Y &ndash valore previsto per Y).

Figura 10-2: Finestra di dialogo Regressione

Dopo aver selezionato OK, Excel genera l'output mostrato in Figure 10.3 e 10.4. Per Figura 10.4, il testo evidenziato indica i dati che vengono eliminati più avanti nel capitolo.

Figura 10-3: Primo output di regressione multipla

Figura 10-4: Residui della prima regressione

Interpretazione dell'output della regressione

Dopo aver eseguito una regressione, è necessario interpretare l'output. Per fare ciò è necessario analizzare una varietà di elementi elencati nell'output. Ogni elemento dell'output influisce sull'output in modo univoco. Le sezioni seguenti spiegano come interpretare gli elementi importanti dell'output della regressione.

Coefficienti

La colonna Coefficienti dell'output (celle B17:B20) fornisce la migliore stima dell'adattamento dell'equazione di regressione multipla. Excel restituisce la seguente equazione:

2

Excel ha trovato questa equazione considerando tutti i valori di B0, B1, B2, e B3 e scegliendo i valori che riducono al minimo la somma su tutte le osservazioni di (Variabile dipendente effettiva e valore previsto) 2 . I coefficienti sono chiamati stime dei minimi quadrati di B0, B1,&hellip,Bn. Raddrizzi gli errori in modo che i valori positivi e negativi non vengano annullati. Nota che se l'equazione si adatta perfettamente a ciascuna osservazione, la somma degli errori al quadrato è uguale a 0.

F Test per l'ipotesi di nessuna regressione lineare

Solo perché inserisci una variabile indipendente in una regressione non significa che sia un utile predittore. Se si utilizzasse il numero di partite vinte dalla squadra nazionale di calcio di ogni paese nel 2007 come variabile indipendente, sarebbe probabilmente irrilevante e non avrebbe alcun effetto sulle vendite di computer. La sezione ANOVA dell'output della regressione (mostrata in Figura 10.3) nelle celle A10:F14 consente di verificare le seguenti ipotesi:

&punto medio Ipotesi nulla: Il Ipotesi di nessuna regressione lineare: Insieme tutte le variabili indipendenti non sono utili (o significative) nella previsione .

&punto medio Ipotesi alternativa: Insieme tutte le variabili indipendenti sono utili (o significative).

Per decidere tra queste ipotesi, è necessario esaminare il Significato Valore F nella cella F12. Il valore di Significanza F di .004 ti dice che i dati indicano che ci sono solo 4 possibilità su 1000 che le tue variabili indipendenti non siano utili nella previsione , quindi rifiuteresti l'ipotesi nulla. La maggior parte degli statistici concorda sul fatto che un significato F (spesso chiamato valore p) di .05 o meno dovrebbe causare il rifiuto dell'ipotesi nulla.

Precisione e bontà dell'adattamento delle previsioni di regressione

Dopo aver concluso che le variabili indipendenti insieme sono significative, una domanda naturale è: quanto bene la tua equazione di regressione si adatta ai dati? Il valore R2 in B5 e Errore standard in B7 (vedi Figura 10.3) rispondi a questa domanda.

&punto medio Il valore R 2 di 0,53 indica che il 53 percento della variazione in è spiegato da Equazione 1. Pertanto, il 47 percento della variazione in non è spiegato dal modello di regressione lineare multipla.

· L'errore standard di 58.43 indica che circa il 68 percento delle previsioni per fatto di Equazione 2 sono accurati entro un errore standard ($ 58,43) e il 95 percento delle tue previsioni per fatto di Equazione 2 sono accurati entro due errori standard ($ 116,86.)

Determinazione delle variabili indipendenti significative

Perché hai concluso che insieme le tue variabili indipendenti sono utili per prevedere , ora devi determinare quali variabili indipendenti sono utili. Per fare questo, guarda il valori p p in E17: E20. Un valore p di 0,05 o inferiore per una variabile indipendente indica che la variabile indipendente è (dopo aver incluso gli effetti di tutte le altre variabili indipendenti nell'equazione) un predittore significativo per . Sembra che solo il PNL pro capite (valore p .027) sia un predittore significativo. A questo punto vuoi vedere se ce ne sono valori anomali o punti dati insoliti. Gli outlier nella regressione sono punti dati in cui il valore assoluto dell'errore (valore effettivo di &ndash valore previsto di ) supera due errori standard. I valori anomali possono avere un effetto drastico sui coefficienti di regressione e l'analista deve decidere se eseguire nuovamente la regressione senza i valori anomali.

L'output residuo e valori anomali

Per ogni punto dati o osservazione, la porzione residua dell'output della regressione, come mostrato in Figura 10.4, fornisce due informazioni.

· Il valore previsto di a partire dal Equazione 2. Ad esempio, le spese pro capite previste per l'Austria sono date da quanto segue:

· La sezione Residui dell'output fornisce per ogni osservazione l'errore = Valore effettivo di Y &ndash Valore previsto di Y. Per l'Austria trovi che il residuo è $112,05 &ndash $141,10 = ndash29,05. L'equazione di regressione trovata dai minimi quadrati ha la proprietà intuitivamente piacevole che la somma dei residui è uguale a 0. Ciò implica che sovrastima e sottostima di annullarsi a vicenda.

Trattare con variabili indipendenti insignificanti

Nell'ultima sezione hai appreso che il PIL pro capite era l'unica variabile indipendente significativa e le altre due variabili indipendenti erano insignificanti. Quando una variabile indipendente è insignificante (ha un valore p maggiore di .05) di solito puoi eliminarla ed eseguire nuovamente la regressione. Prima di farlo, però, devi decidere cosa fare con i tuoi valori anomali. Poiché l'errore standard o la regressione è 58,4, qualsiasi errore superiore a 116,8 in valore assoluto è un valore anomalo. Fare riferimento a Figura 10.4 e puoi vedere che la Finlandia (che è evidenziata) è un enorme valore anomalo. La spesa della Finlandia per i computer è di oltre tre errori standard maggiore del previsto. Quando si elimina Finlandia come valore anomalo e quindi si esegue nuovamente l'analisi, il risultato si trova nel foglio di lavoro Regression2 del file Europe.xlsx, come mostrato in Figura 10.5.

Figura 10-5: Risultati della regressione: rimozione del valore anomalo della Finlandia

Controllando i residui scopri che la Svizzera è un outlier. (Si prevede la spesa di poco più di due errori standard.) Poiché la Svizzera non è un'eccezione oltraggiosa, in questo caso puoi scegliere di lasciarla nel set di dati. Il tasso di disoccupazione è insignificante (valore p di .84 > .05), quindi puoi eliminarlo dal modello ed eseguire nuovamente la regressione. La regressione risultante è nel foglio di lavoro Regressione 3, del file Europe.xlsx come mostrato in Figura 10.6.

Figura 10-6: Output di regressione: tasso di disoccupazione rimosso

Entrambe le variabili indipendenti sono significative, quindi utilizza la seguente equazione per prevedere la spesa per computer pro capite:

3

Poiché R 2 = 0,74, l'equazione spiega il 74% della variazione della spesa per computer. Poiché l'errore standard è 29,13, puoi aspettarti che il 95% delle tue previsioni sia accurato entro $ 58,26. Dalla parte Residui dell'output, puoi vedere che la Svizzera (errore di $ 62,32) è l'unico valore anomalo.

Interpretazione dei coefficienti di regressione

Il coefficiente di regressione di una variabile stima l'effetto (dopo l'aggiustamento per tutte le altre variabili indipendenti utilizzate per stimare l'equazione di regressione) di un aumento unitario della variabile indipendente. Dunque Equazione 3 può essere interpretato come segue:

· Dopo aver aggiustato per una frazione del PIL speso per l'istruzione, un aumento di $ 1.000 del PIL pro capite produce un aumento di $ 1,72 nella spesa per computer pro capite.

· Dopo l'adeguamento per il PIL pro capite, un aumento dell'1% della frazione di PIL spesa per l'istruzione produce un aumento di 15,31 dollari nella spesa per computer pro capite.

Impostazione delle quote di vendita

Spesso parte della retribuzione di un venditore è una commissione basata sul raggiungimento della quota di vendita di un venditore. Affinché il pagamento delle commissioni sia equo, l'azienda deve garantire che un venditore con un territorio "buono" disponga di una quota maggiore rispetto a un venditore con un territorio "sbagliato". Vedrai ora come utilizzare il modello di regressione multipla per impostare quote di vendita eque. Utilizzando la regressione multipla, una quota di vendita annuale ragionevole per un territorio è uguale alla popolazione * quota di mercato dell'azienda * previsione di regressione per la spesa pro capite.

Supponiamo che una provincia francese abbia un PIL pro capite di 50.000 dollari e spenda il 10% del suo PIL per l'istruzione. Se la tua azienda ha una quota di mercato del 30%, una quota annuale pro capite ragionevole per la tua forza vendita sarebbe la seguente:

Pertanto, una quota di vendita ragionevole sarebbe di $ 60,23 pro capite.

Attenzione all'estrapolazione cieca

Sebbene sia possibile utilizzare le regressioni per rappresentare molte informazioni preziose, è necessario fare attenzione a utilizzarle per prevedere i valori delle variabili indipendenti che differiscono notevolmente dai valori delle variabili indipendenti che si adattano all'equazione di regressione. Ad esempio, la Costa d'Avorio ha un PIL pro capite di $ 1.140, che è molto inferiore a qualsiasi altro paese nel tuo set di dati europeo, quindi non puoi aspettarti Equazione 3 fornire una previsione ragionevole per la spesa per computer pro capite in Costa d'Avorio.

Utilizzo di variabili qualitative indipendenti nella regressione

Nell'esempio precedente di regressione multipla, hai previsto le vendite di computer pro capite utilizzando il PIL pro capite e la frazione del PIL speso per l'istruzione. Le variabili indipendenti possono anche essere quantificate con un valore numerico esatto e sono indicate come variabili quantitative indipendenti. In molte situazioni, tuttavia, le variabili indipendenti non possono essere facilmente quantificate. Questa sezione esamina i modi per incorporare un fattore qualitativo, come la stagionalità, in un'analisi di regressione multipla.

Supponiamo di voler prevedere le vendite trimestrali di auto negli Stati Uniti per determinare se il trimestre dell'anno influisce sulle vendite di auto. Utilizzare i dati nel file Autos.xlsx, come mostrato in Figura 10.7. Le vendite sono elencate in migliaia di auto e il PIL è in miliardi di dollari.

Figura 10-7: Dati sulle vendite di auto

Potresti essere tentato di definire una variabile indipendente che sia uguale a 1 durante il primo trimestre, 2 durante il secondo trimestre e così via. Sfortunatamente, questo approccio costringerebbe il quarto trimestre ad avere quattro volte l'effetto del primo trimestre, il che potrebbe non essere vero. Il trimestre dell'anno è una variabile qualitativa indipendente. Per modellare una variabile indipendente qualitativa, creare una variabile indipendente (chiamata a variabile fittizia) per tutti tranne uno dei possibili valori della variabile qualitativa. (È arbitrario quale valore tralasci. Questo esempio omette il quarto trimestre). Le variabili fittizie indicano quale valore della variabile qualitativa si verifica. Pertanto, hai una variabile fittizia per Trimestre 1, Trimestre 2 e Trimestre 3 con le seguenti proprietà:

· La variabile fittizia Trimestre 1 è uguale a 1 se il trimestre è Trimestre 1 e 0 in caso contrario.

· La variabile fittizia Quarter 2 è uguale a 1 se il trimestre è Quarter 2 e 0 in caso contrario.

· La variabile fittizia Trimestre 3 è uguale a 1 se il trimestre è Trimestre 3 e 0 in caso contrario.

Un'osservazione trimestre 4 può essere identificata perché le variabili fittizie per il trimestre 1 fino al trimestre 3 sono uguali a 0. Risulta che non è necessaria una variabile fittizia per il quarto trimestre. Infatti, se includi una variabile fittizia per il quarto trimestre come indipendente variabile nella regressione, Microsoft Office Excel restituisce un messaggio di errore. Il motivo per cui si ottiene un errore è perché se esiste una relazione lineare esatta tra qualsiasi insieme di variabili indipendenti, Excel deve eseguire l'equivalente matematico della divisione per 0 (un'impossibilità) durante l'esecuzione di una regressione multipla. In questa situazione, se includi una variabile fittizia quarto trimestre, ogni punto dati soddisfa la seguente relazione lineare esatta:

(Dummy 1 trimestre)+(Dummy trimestre 2)+(Dummy 3 Quarter)+(Dummy 4 Quarter)=1

È possibile interpretare la variabile fittizia &ldquoomitted&rdquo come uno scenario &ldquobaseline&rdquo che si riflette nell'intercetta &ldquoregular&rdquo. Pertanto, puoi pensare ai manichini come cambiamenti nell'intercettazione.

Per creare la variabile fittizia per il trimestre 1, copia la formula IF(B12=1,1,0) da G12 a G13:G42. Questa formula inserisce un 1 nella colonna G ogni volta che un trimestre è il primo trimestre e uno 0 nella colonna G ogni volta che il trimestre non è il primo trimestre. In modo simile, è possibile creare variabili fittizie per Trimestre 2 (in H12:H42) e Trimestre 3 (in I12:I42). Figura 10.8 mostra i risultati delle formule.

Figura 10-8: Variabili fittizie e ritardate

Oltre alla stagionalità, ti piacerebbe utilizzare variabili macroeconomiche come il prodotto nazionale lordo (PNL, in miliardi di dollari del 1986), i tassi di interesse e i tassi di disoccupazione per prevedere le vendite di auto. Supponiamo, ad esempio, di voler stimare le vendite per il secondo trimestre del 1979. Poiché i valori per il PIL, il tasso di interesse e il tasso di disoccupazione non sono noti all'inizio del secondo trimestre 1979, non è possibile utilizzare il secondo trimestre 1979 PNL, tasso di interesse e tasso di disoccupazione per prevedere le vendite di auto nel secondo trimestre del 1979. Invece, utilizzi i valori per il PIL, il tasso di interesse e il tasso di disoccupazione ritardati di un trimestre per prevedere le vendite di auto. Copiando la formula =D11 da J12 a J12:L42, puoi creare il valore ritardato per il PNL, la prima delle tue variabili macroeconomiche indipendenti. Ad esempio, l'intervallo J12:L12 contiene il PIL, il tasso di disoccupazione e il tasso di interesse per il primo trimestre del 1979.

È ora possibile eseguire la regressione multipla facendo clic su Analisi dati nella scheda Dati e quindi selezionando Regressione nella finestra di dialogo Analisi dati. Usa C11: C42 come input Intervallo e G11: L42 come ingresso X Intervallo seleziona la casella Etichette (la riga 11 contiene etichette) e controlla anche la casella Residui. Dopo aver fatto clic su OK, è possibile ottenere l'output, che è possibile visualizzare nel foglio di lavoro Regressione del file Autos.xlsx e in Figura 10.9.

Figura 10-9: Output di regressione di riepilogo per esempio automatico

Nel Figura 10.9, potete vederlo Equazione 1 viene utilizzato per prevedere le vendite di auto trimestrali come segue:

Vendite trimestrali previste=3154.7+156,833Q1+379.784Q2+203,03 6Q3+.174(LAGGNP in miliardi) e 93,83 (LAGUNEP) e 73,91 (LAGINT)

Anche in Figura 10.9, vedi che ogni variabile indipendente tranne Q1 ha un p-value minore o uguale a 0,05. La discussione precedente indicherebbe che dovresti eliminare la variabile Q1 ed eseguire nuovamente la regressione. Poiché Q2 e Q3 sono significativi, sai che c'è una stagionalità significativa, quindi lascia Q1 come variabile indipendente perché tratta le variabili dell'indicatore di stagionalità come un "pacchetto". Puoi quindi concludere che tutte le variabili indipendenti hanno un effetto significativo sulle vendite di auto trimestrali . Interpreti tutti i coefficienti nella tua equazione di regressione ceteris paribus (il che significa che ogni coefficiente fornisce l'effetto della variabile indipendente dopo aver aggiustato gli effetti di tutte le altre variabili nella regressione).

Ciascun coefficiente di regressione viene interpretato come segue:

· Un aumento di $ 1 miliardo nel PIL dell'ultimo trimestre aumenta le vendite di auto trimestrali di 174.

· Un aumento dell'1% nel tasso di disoccupazione dell'ultimo trimestre fa diminuire le vendite di auto trimestrali di 93.832.

· Un aumento dell'1% del tasso di interesse dell'ultimo trimestre riduce le vendite di auto trimestrali di 73.917.

Per interpretare i coefficienti delle variabili dummy, devi renderti conto che ti dicono l'effetto della stagionalità rispetto al valore lasciato fuori dalle variabili qualitative. Dunque

· Nel primo trimestre, le vendite di auto superano le vendite di auto nel quarto trimestre di 156.833.

· Nel secondo trimestre, le vendite di auto superano le vendite di auto nel quarto trimestre di 379.784.

· Nel terzo trimestre, le vendite di auto superano le vendite di auto nel quarto trimestre di 203.036.

Le vendite di auto sono più alte durante il secondo trimestre (da aprile a giugno i rimborsi fiscali e l'estate stanno arrivando) e più basse durante il terzo trimestre. (Da ottobre a dicembre perché comprare una macchina nuova quando la salatura invernale la rovinerà?)

Dovresti notare che ogni coefficiente di regressione viene calcolato dopo aver aggiustato tutte le altre variabili indipendenti nell'equazione (questo è spesso indicato come ceteris paribus, o tutte le altre cose sono uguali).

Dall'output di riepilogo mostrato in Figura 10.9, puoi imparare quanto segue:

· La variazione nelle variabili indipendenti (fattori macroeconomici e stagionalità) spiega il 78 percento della variazione nella variabile dipendente (vendite di auto trimestrali).

· L'errore standard della tua regressione è 190.524 auto. Puoi aspettarti che circa il 68% delle tue previsioni sia accurato all'interno di 190.524 auto e circa il 95% delle tue previsioni sia accurato all'interno di 381.048 auto (2 * 190.524).

· Ci sono 31 osservazioni usate per adattare la regressione.

L'unica quantità di interesse nella porzione ANOVA di Figura 10.9 è il significato (0,00000068). Questa misura implica che ci sono solo 6,8 possibilità su 10.000.000 che, prese insieme, tutte le variabili indipendenti siano inutili nella previsione delle vendite di auto. Pertanto, puoi essere abbastanza sicuro che le tue variabili indipendenti siano utili per prevedere le vendite trimestrali di auto.

Figura 10.10 mostra per ogni osservazione le vendite previste e il residuo. Ad esempio, per il secondo trimestre del 1979 (osservazione 1), le vendite previste da Equazione 1 sono 2728,6 mila e il tuo residuo è 181.400 auto (2910 e 2728,6). Nota che nessun residuo supera i 381.000 in valore assoluto, quindi non hai valori anomali.

Figura 10-10: Uscita residua per esempio Auto

Interazioni e non linearità di modellazione

Equazione 1 assume che ogni variabile indipendente influenzi in modo lineare. Ciò significa, ad esempio, che un'unità aumenta di X 1 aumenterà di B1 per qualsiasi valore di X1, X2, &hellip, Xn. In molte situazioni di marketing questa ipotesi di linearità non è realistica. In questa sezione imparerai come modellare situazioni in cui una variabile indipendente può interagire o influenzare in modo non lineare.

Relazione non lineare

Una variabile indipendente può spesso influenzare una variabile dipendente attraverso una relazione non lineare. Ad esempio, se si tenta di prevedere le vendite di prodotti utilizzando un'equazione come la seguente, il prezzo influenza le vendite in modo lineare.

Questa equazione indica che un aumento unitario del prezzo può (a qualsiasi livello di prezzo) ridurre le vendite di 10 unità. Se la relazione tra vendite e prezzo fosse governata da un'equazione come la seguente, prezzo e vendite sarebbero correlati in modo non lineare.

Come mostrato in Figura 10.11, maggiori aumenti di prezzo determinano maggiori diminuzioni della domanda. In breve, se la variazione della variabile dipendente causata da una variazione unitaria della variabile indipendente non è costante, esiste una relazione non lineare tra le variabili indipendenti e dipendenti.

Figura 10-11: Relazione non lineare tra vendite e prezzo

Interazione

Se l'effetto di una variabile indipendente su una variabile dipendente dipende dal valore di un'altra variabile indipendente, si può dire che le due variabili indipendenti mostrano interazione. Ad esempio, supponi di provare a prevedere le vendite utilizzando il prezzo e l'importo speso in pubblicità. Se l'effetto di modificare il livello dei dollari pubblicitari è grande quando il prezzo è basso e piccolo quando il prezzo è alto, il prezzo e la pubblicità mostrano un'interazione. Se l'effetto di modificare il livello dei dollari pubblicitari è lo stesso per qualsiasi livello di prezzo, le vendite e il prezzo non presentano alcuna interazione. Incontrerai di nuovo le interazioni nel Capitolo 41, &ldquoAnalysis of Variance: Two-way ANOVA.&rdquo

Test per non linearità e interazioni

Per vedere se una variabile indipendente ha un effetto non lineare su una variabile dipendente, è sufficiente aggiungere alla regressione una variabile indipendente che sia uguale al quadrato della variabile indipendente. Se il termine al quadrato ha un valore p basso (inferiore a 0,05), hai evidenza di una relazione non lineare.

Per verificare se due variabili indipendenti mostrano interazione, è sufficiente aggiungere alla regressione un termine che sia uguale al prodotto delle variabili indipendenti. Se il termine ha un valore p basso (inferiore a 0,05), hai prove di interazione. Il file Priceandads.xlsx illustra questa procedura. Nei dati del foglio di lavoro da questo file (vedi Figura 10.12), hai le vendite settimanali di un prodotto, il prezzo settimanale e le spese pubblicitarie settimanali (in migliaia di dollari).

Figura 10-12: Non linearità e dati di interazione

Con questo esempio, ti consigliamo di prevedere le vendite settimanali dal prezzo e dalla pubblicità. Per determinare se la relazione è non lineare o presenta interazioni, eseguire i passaggi seguenti:

1. Aggiungi nella colonna H Pubblicità*Prezzo, nella colonna I Prezzo 2 e nella colonna J Anno Domini 2 .

2. Quindi, esegui una regressione con Gamma E4:E169 e X Gamma F4: J169. È possibile ottenere l'output della regressione, come mostrato nel foglio di lavoro non lineare e Figura 10.13.

3. Tutte le variabili indipendenti tranne Prezzo 2 hanno valori di p significativi (inferiori a .05). Pertanto, lascia cadere Prezzo 2 come variabile indipendente e rieseguire la regressione. Il risultato è in Figura 10.14 e il foglio di lavoro finale.

Figura 10-13: Primo output di regressione per esempio di non linearità e interazione

Figura 10-14: Output di regressione finale per esempio di non linearità e interazione

Il valore di significatività F è piccolo, quindi il modello di regressione ha valori predittivi significativi. Tutte le variabili indipendenti hanno valori p estremamente piccoli, quindi puoi prevedere le vendite unitarie settimanali con l'equazione

Il &ndash37.33 Anno Domini 2 termine implica che ogni $ 1.000 in più in pubblicità può generare meno vendite (rendimenti decrescenti). Il &ndash74.13*Anno Domini*P termine implica che a prezzi più elevati la pubblicità aggiuntiva ha un effetto minore sulle vendite.

Il valore R 2 del 99,4 percento implica che il tuo modello spieghi il 99,4 percento della variazione nelle vendite settimanali. L'errore standard di 134,86 implica che circa il 95 percento delle tue previsioni dovrebbe essere accurato entro 269.71. È probabile che le interazioni e gli effetti non lineari causino la multicollinearità, che è trattata nella sezione &ldquoMulticollinearità&rdquo più avanti in questo capitolo.

Verifica della validità delle ipotesi di regressione

Ricorda in precedenza nel capitolo che hai appreso le ipotesi di regressione che dovrebbero essere soddisfatte dal termine di errore in una regressione lineare multipla. Per semplicità di presentazione, queste ipotesi sono ripetute qui:

· Il termine di errore è distribuito normalmente.

· Si presume che la variabilità o la diffusione del termine di errore non dipenda dal valore della variabile dipendente.

&punto medio Per i dati di serie temporali, i valori successivi del termine di errore devono essere indipendenti. Ciò significa, ad esempio, che se per un'osservazione il termine di errore è un numero positivo grande, questo non ti dice nulla sul valore dei termini di errore successivi.

Questa sezione discute ulteriormente come determinare se questi presupposti sono soddisfatti, le conseguenze della violazione dei presupposti e come risolvere la violazione di questi presupposti.

Termine di errore distribuito normalmente

È possibile dedurre la natura di un termine di errore sconosciuto attraverso l'esame dei residui. Se i residui provengono da una variabile casuale normale, la variabile casuale normale dovrebbe avere una densità simmetrica. Quindi l'asimmetria (misurata dalla funzione ASIMMETRIA di Excel descritta nel Capitolo 2) dovrebbe essere vicina a 0.

curtosi, che può sembrare una malattia ma non lo è, può anche aiutarti a identificare se è probabile che i residui provengano da una variabile casuale normale. Kurtosis vicino a 0 significa che un set di dati mostra un "picco" vicino al normale. La curtosi positiva significa che un set di dati ha un picco più elevato di una normale variabile casuale, mentre la curtosi negativa significa che i dati hanno un picco inferiore rispetto a una variabile casuale normale. La curtosi di un set di dati può essere calcolata con la funzione KURT di Excel.

Per set di dati di dimensioni diverse, Figura 10.15 fornisce intervalli di confidenza del 95% per l'asimmetria e la curtosi dei dati tratti da una variabile casuale normale.

Figura 10-15: Intervallo di confidenza al 95% per asimmetria e curtosi per un campione da una distribuzione normale

Ad esempio, è sicuro al 95% che in un campione di dimensione 50 da una variabile casuale normale, la curtosi sia compresa tra &ndash0.91 e 1.62. È anche certo al 95% che in un campione di dimensione 50 da una variabile casuale normale, l'asimmetria è compresa tra &ndash0,66 e 0,67. Se i tuoi residui producono un'asimmetria o una curtosi al di fuori dell'intervallo mostrato in Figura 10.15, allora hai motivo di dubitare del presupposto di normalità.

Nell'esempio della spesa informatica per i paesi europei, hai ottenuto un'asimmetria di 0,83 e una curtosi di 0,18. Entrambi questi numeri sono all'interno degli intervalli specificati in Figura 10.15, quindi non hai motivo di dubitare della normalità dei residui.

La non normalità dei residui invalida i valori p utilizzati per determinare la significatività delle variabili indipendenti o dell'intera regressione. La soluzione più comune al problema delle variabili casuali non normali è trasformare la variabile dipendente. Sostituendo spesso di Ln , , o può risolvere la non normalità degli errori.

Eteroschedasticità: un termine di errore di varianza non costante

Se valori più grandi di una variabile indipendente portano a una varianza maggiore negli errori, hai violato la varianza costante dell'assunzione del termine di errore e eteroschedasticità è presente. L'eteroschedasticità, come i residui non normali, invalida i valori p utilizzati in precedenza nel capitolo per verificare la significatività. Nella maggior parte dei casi è possibile identificare l'eteroschedasticità rappresentando graficamente il valore previsto sull'asse x e il valore assoluto del residuo sull'asse y. Per vedere un'illustrazione di ciò, guarda il file Heteroscedasticity.xlsx. Un esempio dei dati è mostrato in Figura 10.16.

Figura 10-16: Dati di eteroschedasticità

In questo file, stai utilizzando i dati in Heteroscedasticity.xlsx e stai cercando di prevedere l'importo che una famiglia spende annualmente per il cibo dal proprio reddito annuale. Dopo aver eseguito una regressione, è possibile rappresentare graficamente il valore assoluto dei residui rispetto alla spesa alimentare prevista. Figura 10.17 mostra il grafico risultante.

Figura 10-17: Esempio di eteroschedasticità

La pendenza verso l'alto della linea che si adatta meglio al grafico indica che l'accuratezza della previsione diminuisce per le famiglie con più reddito e l'eteroschedasticità è chiaramente presente. Di solito l'eteroschedasticità si risolve sostituendo la variabile dipendente dependent di Ln o . Il motivo per cui queste trasformazioni spesso risolvono l'eteroschedasticità è che queste trasformazioni riducono la diffusione nella variabile dipendente.Ad esempio, se tre punti dati hanno Y = 1, Y = 10.000 e Y = 1.000.000, dopo aver utilizzato la trasformazione i tre punti ora hanno una variabile dipendente con valori rispettivamente 1, 100 e 1000.

Autocorrelazione: la non indipendenza degli errori

Supponiamo che i tuoi dati siano dati di serie temporali. Ciò implica che i dati sono elencati in ordine cronologico. I dati automatici sono un buon esempio. I valori p utilizzati per verificare l'ipotesi di nessuna regressione lineare e il significato di una variabile indipendente non sono validi se i termini di errore sembrano essere dipendenti (non indipendenti). Inoltre, se i tuoi termini di errore non sono indipendenti, puoi dire che autocorrelazione è presente. Se è presente l'autocorrelazione, non puoi più essere sicuro che il 95 percento delle tue previsioni sarà accurato entro due errori standard. Probabilmente meno del 95% delle tue previsioni sarà accurato entro due errori standard. Ciò significa che in presenza di autocorrelazione, le tue previsioni possono dare un falso senso di sicurezza. Poiché i residui rispecchiano il valore teorico dei termini di errore in Equazione 1, il modo più semplice per vedere se l'autocorrelazione è presente è guardare un grafico dei residui in ordine cronologico. Ricorda la somma dei residui a 0, quindi circa la metà è positiva e la metà è negativa. Se i tuoi residui sono indipendenti, ti aspetteresti che sequenze della forma ++, + &ndash, &ndash + e &ndash &ndash siano ugualmente probabili. Qui + è un residuo positivo e &ndash è un residuo negativo.

Interpretazione grafica dell'autocorrelazione

È possibile utilizzare un semplice grafico di serie temporali dei residui per determinare se i termini di errore presentano un'autocorrelazione e, in tal caso, il tipo di autocorrelazione presente.

Figura 10.18 mostra un'illustrazione di residui indipendenti che non mostrano alcuna autocorrelazione.

Figura 10-18: I residui indicano nessuna autocorrelazione

Qui puoi vedere 6 modifiche in uscita su 11 possibili modifiche.

Figura 10.19, tuttavia, è indicativo di autocorrelazione positiva. Figura 10.19 mostra solo un cambio di segno su 11 possibili cambiamenti. I residui positivi sono seguiti da residui positivi e i residui negativi sono seguiti da residui negativi. Pertanto, i residui successivi sono correlati positivamente. Quando i residui mostrano pochi cambiamenti di segno (rispetto alla metà del numero possibile di cambiamenti di segno), si sospetta un'autocorrelazione positiva. Sfortunatamente, l'autocorrelazione positiva è comune nei dati economici e commerciali.

Figura 10-19: I residui indicano un'autocorrelazione positiva

Figura 10.20 è indicativo di autocorrelazione negativa. Figura 10.20 mostra 11 cambiamenti di segno da un possibile 11. Ciò indica che un residuo piccolo tende a essere seguito da un residuo grande e che un residuo grande tende a essere seguito da un residuo piccolo. Pertanto, i residui successivi sono correlati negativamente. Ciò mostra che molti cambiamenti di segno (relativi alla metà del numero di possibili cambiamenti di segno) sono indicativi di autocorrelazione negativa.

Figura 10-20: I residui indicano un'autocorrelazione negativa

Per aiutare a chiarire questi tre diversi tipi di interpretazione grafica, supponiamo di avere n osservazioni. Se i tuoi residui non mostrano alcuna correlazione, allora la possibilità di vedere meno di o più di il cambio di segno è di circa il 5 percento. Quindi puoi concludere quanto segue:

&punto medio Se osservi minore o uguale a cambiamenti di segno, concludere che è presente un'autocorrelazione positiva.

&punto medio Se almeno osservi cambiamenti di segno, concludere che è presente un'autocorrelazione negativa.

· Altrimenti puoi concludere che non è presente alcuna autocorrelazione.

Rilevamento e correzione per l'autocorrelazione

Il metodo più semplice per correggere l'autocorrelazione è presentato nei passaggi seguenti. Per semplificare la presentazione, supponiamo che ci sia solo una variabile indipendente (Chiamala X):

1. Determina la correlazione tra le seguenti due serie temporali: i tuoi residui e i tuoi residui sono rimasti indietro di un periodo. Chiama questa correlazione P.

2. Esegui una regressione con la variabile dipendente per il tempo T essendo T &ndash pYt-1 e variabile indipendente XT &ndash pXt-1.

3. Controllare il numero di cambi di segno nei residui della nuova regressione. Di solito, l'autocorrelazione non è più un problema e puoi riorganizzare l'equazione per prevedere T a partire dal t-1, XT, e Xt-1.

Per illustrare questa procedura, puoi provare a prevedere la spesa dei consumatori (in miliardi di $) durante un anno in funzione dell'offerta di moneta (in miliardi di $). Vent'anni di dati sono dati in Figura 10.21 e sono disponibili per il download dal file autocorr.xls.

Figura 10-21: Dati per esempio di autocorrelazione

Ora completa i seguenti passaggi:

1. Esegui una regressione con X Gamma B1: B21 e Intervallo A1: A21 e seleziona la casella Etichette e residui. Figura 10.22 mostra i residui.

Figura 10-22: Residui per esempio di autocorrelazione

2. Si osservi che un cambiamento di segno nei residui si verifica se, e solo se, il prodotto di due residui successivi è <0. Pertanto, la copia della formula =IF(I27*I26<0,1,0) da J27 a J28:J45 conta il numero di cambi di segno. Calcola il numero totale di cambi di segno (4) nella cella J24 con la formula =SUM(J27:J45).

3. Nella cella J22 calcola il &ldquocutoff&rdquo per il numero di cambi di segno che indica la presenza di autocorrelazione positiva. Se il numero di cambi di segno è <5.41, allora puoi sospettare che l'autocorrelazione positiva sia presente: =9.5&ndashSQRT(19).

4. Poiché hai solo quattro cambi di segno, puoi concludere che è presente un'autocorrelazione positiva.

5. Per correggere l'autocorrelazione, trova la correlazione tra i residui e i residui ritardati. Creare i residui ritardati in K27:K45 copiando la formula =I26 da K27 a K28:K45.

6. Trova la correlazione tra i residui e i residui ritardati (0.82) nella cella L26 usando la formula = CORREL (I27: I45, K27: K45).

7. Per correggere l'autocorrelazione, eseguire una regressione con variabile dipendente SpeseT & ndash .82 Speset&ndash1 e variabile indipendente Fornitura di denaroT & ndash .82 Fornitura di denarot&ndash1. Vedere Figura 10.23.

Figura 10-23: Dati trasformati da correggere per l'autocorrelazione

8. Nella colonna C crea la variabile dipendente trasformata copiando la formula =A3-0,82*A2 da C3 a C4:C21.

9. Copia questa stessa formula da D3 a D4: D21 per creare la variabile indipendente trasformata Fornitura di denaroT & ndash .82Fornitura di denaroT &ndash1.

10. Ora esegui una regressione con il Intervallo come C3: C21 e X Intervallo come D3: D21. Figura 10.24 mostra i risultati.

Figura 10-24: Output di regressione per i dati trasformati

Poiché il valore p della variabile indipendente è inferiore a 0,15, puoi concludere che la variabile indipendente trasformata è utile per prevedere la variabile indipendente trasformata. Puoi trovare i residui del tuo nuovo segno di cambiamento di regressione sette volte. Questo supera il cutoff positivo di autocorrelazione di 4,37 cambiamenti di segno. Pertanto puoi concludere che hai rimosso con successo l'autocorrelazione positiva. Puoi prevedere il periodo T spese con la seguente equazione:

Puoi riscrivere questa equazione come segue:

Perché tutto sul lato destro dell'ultima equazione è noto in Periodo T, puoi usare questa equazione per prevedere il periodo T spese.

Multicollinearità

Se due o più variabili indipendenti in un'analisi di regressione sono altamente correlate, un'analisi di regressione può produrre risultati strani. Ogni volta che due o più variabili indipendenti sono altamente correlate e i coefficienti di regressione non hanno senso, puoi dire che multicollinearità esiste.

Figura 10.25 (vedi file housing.xls) fornisce i seguenti dati per gli anni 1963 e 1985: il numero di nuove abitazioni (in migliaia), la popolazione degli Stati Uniti (in milioni) e il tasso ipotecario. È possibile utilizzare questi dati per sviluppare un'equazione in grado di prevedere l'inizio dell'alloggio eseguendo i seguenti passaggi:

1. Sembra logico che le nuove abitazioni dovrebbero aumentare nel tempo, quindi includi l'anno come variabile indipendente per tenere conto di una tendenza al rialzo. Più persone negli Stati Uniti, più avviamento alla casa ti aspetteresti, quindi includi Housing Starts come variabile indipendente. Chiaramente, un aumento dei tassi ipotecari fa diminuire le abitazioni, quindi includi il tasso ipotecario come variabile indipendente.

2. Ora esegui una regressione multipla con il l'intervallo è A3: A26 e X L'intervallo è B3: D26 per ottenere i risultati mostrati in Figura 10.26.

3. Osserva che né POP né YEAR sono significativi. (Hanno p-value rispettivamente di .59 e .74.) Inoltre, il coefficiente negativo di YEAR indica che c'è una tendenza al ribasso nell'edilizia residenziale. Questo non ha senso però. Il problema è che POP e YEAR sono altamente correlati. Per vedere ciò, utilizzare il comando DATA ANALYSIS TOOLS CORRELATION per trovare le correlazioni tra le variabili indipendenti.

4. Selezionare l'intervallo di ingresso B3: D26.

5. Seleziona la casella delle etichette.

6. Metti l'output sul nuovo foglio Correlation.

Figura 10-25: Dati di multicollinearità

Figura 10-26: Primo output di regressione: esempio di multicoillinearità

Dovresti ottenere l'output in Figura 10.27.

Figura 10-27: Matrice di correlazione per esempio di multicollinearità

La correlazione .999 tra POP e YEAR si verifica perché sia ​​POP che YEAR aumentano linearmente nel tempo. Si noti inoltre che la correlazione tra Mort Rate e le altre due variabili indipendenti supera .9. A causa di ciò, multicollinearità esiste. Quello che è successo è che l'elevata correlazione tra le variabili indipendenti ha confuso il computer su quali variabili indipendenti sono importanti. La soluzione a questo problema è eliminare una o più variabili indipendenti altamente correlate e sperare che le variabili indipendenti rimaste nella regressione siano significative. Se decidi di abbandonare ANNO, cambia il tuo X Intervallo fino a B3:C26 per ottenere l'uscita mostrata in Figura 10.28. Se hai accesso a un pacchetto statistico, come SAS o SPSS, puoi identificare la presenza di multicollinearità osservando il Variance Inflation Factor (VIF) di ciascuna variabile indipendente. Una regola generale è che qualsiasi variabile indipendente con un fattore di inflazione della varianza superiore a 5 è prova di multicollinearità.

Figura 10-28: Output di regressione finale per l'esempio di Multicollinearità

POP è ora altamente significativo (valore p = .001). Inoltre, eliminando ANNO hai effettivamente diminuito Se da 280 a 273. Questa diminuzione è dovuta al fatto che l'eliminazione di YEAR ha ridotto la confusione che il computer aveva a causa della forte correlazione tra POP e YEAR. L'equazione predittiva finale è la seguente:

L'interpretazione di questa equazione è che, dopo aver aggiustato i tassi di interesse, un aumento della popolazione degli Stati Uniti di un milione di persone si traduce in $ 34.920 in iniziazioni abitative. Dopo l'adeguamento per la popolazione, un aumento dei tassi di interesse dell'1% può ridurre le iniziazioni di abitazioni di $ 200.850. Si tratta di informazioni preziose che potrebbero essere utilizzate per prevedere i futuri flussi di cassa delle industrie legate all'edilizia.

Dopo aver corretto per la multicollinearità, le variabili indipendenti ora hanno segni che concordano con il buon senso. Questo è un sottoprodotto comune della correzione per la multicollinearità.

Convalida di una regressione

L'obiettivo finale dell'analisi di regressione è utilizzare i modelli stimati per una previsione accurata. Quando si utilizza un'equazione di regressione per fare previsioni per il futuro, è necessario evitare di adattare eccessivamente un insieme di dati. Ad esempio, se avessi sette punti dati e una sola variabile indipendente, potresti ottenere un R 2 = 1 adattando ai dati un polinomio di sesto grado. Sfortunatamente, una tale equazione probabilmente funzionerebbe male nell'adattare i dati futuri. Ogni volta che disponi di una quantità ragionevole di dati, dovresti trattenere circa il 20 percento dei tuoi dati (chiamato Set di convalida) per convalidare le tue previsioni. Per fare ciò, adatta semplicemente la regressione all'80% dei tuoi dati (chiamato Set di prova). Calcola la deviazione standard degli errori per questi dati. Ora usa l'equazione generata dal Test Set per calcolare le previsioni e la deviazione standard degli errori per il Validation Set. Si spera che la deviazione standard per il set di convalida sarà abbastanza vicina alla deviazione standard per il set di prova. In tal caso, è possibile utilizzare l'equazione di regressione per le previsioni future ed essere abbastanza sicuri che l'accuratezza delle previsioni future sarà approssimata dal Se per il set di prova. Puoi illustrare l'importante idea della convalida con i dati del tuo esempio abitativo.

Utilizzando gli anni 1963&ndash1980 come Test Set e gli anni 1981&ndash1985 come Validation Set, puoi determinare l'idoneità della regressione con variabili indipendenti POP e MORT RATO per previsioni future utilizzando la potente funzione TREND. La sintassi della funzione TENDENZA è TREND(y_nota,[x_nota],[x_nuova],[const]). Questa funzione si adatta a una regressione multipla utilizzando il noto 's e noto X's e poi usa questa regressione per fare previsioni per la variabile dipendente usando il new Xi dati. [Costante] è un argomento facoltativo. L'impostazione di [Costante]=Falso fa sì che Excel adatti alla regressione con il termine costante impostato uguale a 0. L'impostazione di [Costante]=Vero o l'omissione di [Costante] fa sì che Excel adatti una regressione nel modo normale.

La funzione TENDENZA è una funzione array (vedi Capitolo 2) quindi è necessario selezionare l'intervallo di celle popolato dalla funzione TENDENZA e infine premere Ctrl+Shift+Invio per consentire a TENDENZA di calcolare i risultati desiderati. Come mostrato in Figura 10.29 e Dati del foglio di lavoro, ora utilizzerai la funzione TENDENZA per confrontare l'accuratezza delle previsioni di regressione per il periodo di convalida 1981-1985 con l'accuratezza delle previsioni di regressione per i dati adattati utilizzando i passaggi seguenti.

1. Per generare previsioni per gli anni 1963&ndash1985 utilizzando i dati 1963&ndash1980, è sufficiente selezionare l'intervallo E4:E26 e inserire in E4 la formula dell'array =TREND(A4:A21, B4:C21,B4:C26) (fare riferimento a Figura 10.29). Le righe 4-21 contengono i dati per gli anni 1963-1980 e le righe 4-26 contengono i dati per gli anni 1963-1985.

Figura 10-29: Utilizzo della funzione Trend per convalidare la regressione

2. Calcolare l'errore per la previsione di ogni anno nella colonna F. L'errore per il 1963 è calcolato in F4 con la formula =A4-F4.

3. Copia questa formula fino alla riga 26 per calcolare gli errori per gli anni 1964 e 1985.

4. Nella cella H2 calcolare la deviazione standard (285,70) degli errori per gli anni 1963&ndash1980 con la formula =DEV.ST(F4:F21).

5. Nella cella H3 calcolare la deviazione standard (255,89) degli errori di previsione per gli anni 1981 e 1985 con la formula =MEDIA(F22:F26).

Le previsioni sono in realtà più accurate per il Validation Set! Questo è insolito, ma ti dà la certezza che il 95 percento di tutte le previsioni future dovrebbe essere accurato entro 2Se = 546.700 alloggi iniziati.

In questo capitolo hai imparato quanto segue:

· Il termine di errore è necessario per soddisfare le seguenti ipotesi:

· Il termine di errore è distribuito normalmente.

· Si presume che la variabilità o la diffusione del termine di errore non dipenda dal valore della variabile dipendente.

&punto medio Per i dati di serie temporali, i valori successivi del termine di errore devono essere indipendenti. Ciò significa, ad esempio, che se per un'osservazione il termine di errore è un numero positivo grande, questo non ti dice nulla sul valore dei termini di errore successivi.

· La violazione di questi presupposti può invalidare i valori p nell'output di Excel.

&punto medio È possibile eseguire un'analisi di regressione utilizzando lo strumento di analisi dei dati.

· La parte Coefficienti dell'output fornisce le stime dei minimi quadrati di B0, B1, &hellip, Bn.

· Un significato F nella sezione ANOVA dell'output inferiore a .05 ti fa rifiutare l'ipotesi di nessuna regressione lineare e conclude che le tue variabili indipendenti hanno un valore predittivo significativo.

· Le variabili indipendenti con valore p maggiore di .05 devono essere eliminate e la regressione deve essere rieseguita finché tutte le variabili indipendenti non hanno valori p pari o inferiori a .05.

· Circa il 68 percento delle previsioni di una regressione dovrebbe essere accurato entro un errore standard e circa il 95 percento delle previsioni di una regressione dovrebbe essere accurato entro due errori standard.

· Le variabili qualitative indipendenti sono modellate utilizzando variabili indicatori.

&punto medio Aggiungendo il quadrato di una variabile indipendente come nuova variabile indipendente, puoi verificare se la variabile indipendente ha un effetto non lineare su .

&punto medio Sommando il prodotto di due variabili indipendenti (diciamo X1 e X2) come nuova variabile indipendente, puoi verificare se X1 e X2 interagiscono nel loro effetto su .

&punto medio È possibile verificare la presenza di autocorrelazione in una regressione basata su dati di serie temporali esaminando il numero di cambiamenti di segno nei residui. Troppi cambiamenti di segno indicano un'autocorrelazione positiva e troppi cambiamenti di segno indicano un'autocorrelazione negativa.

· Se le variabili indipendenti sono altamente correlate, i loro coefficienti in una regressione possono essere fuorvianti. Questo è noto come multicollinearità.

1. Fizzy Drugs vuole ottimizzare la resa di un importante processo chimico. L'azienda ritiene che il numero di libbre prodotte ogni volta che il processo viene eseguito dipenda dalle dimensioni del contenitore utilizzato, dalla pressione e dalla temperatura. Gli scienziati coinvolti ritengono che l'effetto di modificare una variabile potrebbe dipendere dai valori di altre variabili. La dimensione del contenitore di processo deve essere compresa tra 1,3 e 1,5 metri cubi, la pressione deve essere compresa tra 4 e 4,5 mm e la temperatura deve essere compresa tra 22 e 30 gradi Celsius. Gli scienziati hanno pazientemente impostato esperimenti ai livelli inferiore e superiore delle tre variabili di controllo e ottengono i dati mostrati nel file Fizzy.xlsx.

(un) Determinare la relazione tra resa, dimensione, temperatura e pressione.

(B) Discutere le interazioni tra pressione, dimensione e temperatura.

(C) Quali impostazioni per temperatura, dimensioni e pressione consiglieresti?

2. Per 12 settimane consecutive, hai osservato le vendite (in numero di casi) di pomodori in scatola al supermercato Mr. D's. (Vedi il file Grocery.xlsx.) Ogni settimana, tieni traccia di quanto segue:

(un) È stato inserito un avviso promozionale per i pomodori in scatola in tutti i carrelli della spesa?

(B) Ad ogni cliente è stato dato un coupon per le conserve di pomodoro?

(C) È stata data una riduzione del prezzo (nessuna, 1 o 2 centesimi di sconto)?

Utilizzare questi dati per determinare come i fattori precedenti influenzano le vendite. Prevedi le vendite di pomodori in scatola durante una settimana in cui usi un avviso del carrello della spesa, un coupon e riduci il prezzo di 1 centesimo.

3. Il file Countryregion.xlsx contiene i seguenti dati per diversi paesi sottosviluppati:

· Percentuale di studenti che terminano la scuola primaria

Utilizzare questi dati per sviluppare un'equazione che può essere utilizzata per prevedere la mortalità infantile. Ci sono valori anomali in questo set di dati? Interpreta i coefficienti nella tua equazione. Entro quale valore dovrebbe essere accurato il 95 percento delle tue previsioni sulla mortalità infantile?

4. Il file Baseball96.xlsx fornisce punti segnati, singoli, doppi, tripli, fuoricampo e basi rubate per ogni squadra di baseball della Major League durante la stagione 1996. Utilizzare questi dati per determinare gli effetti di singole, doppie e altre attività sulla produzione in esecuzione.

5. Il file Cardata.xlsx fornisce le seguenti informazioni per 392 diversi modelli di auto:

· Miglia per gallone (MPG) Determina un'equazione in grado di prevedere l'MPG. Perché secondo te tutte le variabili indipendenti non sono significative?

6. Determina per la tua regressione prevedendo le vendite di computer se i residui mostrano non normalità o eteroschedasticità.

7. Il file Oreos.xlsx fornisce le vendite giornaliere di Oreo in un supermercato e se gli Oreo sono stati posizionati a 7" dal pavimento, a 6" dal pavimento oa 5" dal pavimento. In che modo la posizione sullo scaffale influenza le vendite di Oreo?

8. Il file USmacrodata.xlsx contiene il PIL trimestrale degli Stati Uniti, i tassi di inflazione e i tassi di disoccupazione. Usa questo file per eseguire i seguenti esercizi:

(un) Sviluppare una regressione per prevedere la crescita trimestrale del PIL dagli ultimi quattro trimestri di crescita. Verificare la non normalità dei residui, l'eteroschedasticità, l'autocorrelazione e la multicollinearità.

(B) Sviluppare una regressione per prevedere il tasso di inflazione trimestrale dagli ultimi quattro trimestri di inflazione. Verificare la non normalità dei residui, l'eteroschedasticità, l'autocorrelazione e la multicollinearità.

(C) Sviluppare una regressione per prevedere il tasso di disoccupazione trimestrale dai tassi di disoccupazione degli ultimi quattro trimestri. Verificare la non normalità dei residui, l'eteroschedasticità, l'autocorrelazione e la multicollinearità.

9. Il nostro modello di regressione per la previsione delle vendite di auto mostra autocorrelazione, non normalità degli errori o eteroschedasticità?


Regressione di "Errore I/O buffer" tra i kernel 4.11 e 4.12 #57

a) Con il kernel 4.11.12 della linea principale (vanilla) sul client, i comandi seguenti vengono eseguiti correttamente senza errori.
b) Quindi aggiorno al kernel principale 4.12.0 ed eseguo di nuovo:

modprobe nbd
nbd-client server-ip -N /opt/ltsp/i386 /dev/nbd5
dmesg

E vedo i seguenti errori:

[ 73.824873] nbd: dispositivo registrato al maggiore 43
[ 84.791001] nbd5: variazione di capacità rilevata da 0 a 20936916992
[84.791071] blocco nbd5: Tentativo di invio su socket non valido
[ 84.791077] blk_update_request: errore I/O, dev nbd5, settore 0
[ 84.791080] Errore I/O buffer su dev nbd5, blocco logico 0, lettura pagina asincrona
<le 3 righe sopra ripetute 10 volte>
[ 84.791132] blocco nbd5: Tentativo di invio su socket non valido
[ 84.791133] blk_update_request: errore I/O, dev nbd5, settore 2
[ 84.791134] Errore I/O buffer su dev nbd5, blocco logico 1, lettura pagina asincrona
[ 84.791140] ldm_validate_partition_table(): lettura del disco non riuscita.
[ 84.791175] Dev nbd5: impossibile leggere il blocco RDB 0
[ 84.791228] nbd5: impossibile leggere la tabella delle partizioni

Posso riprodurlo in molte installazioni, reali o VM.
Grazie!

Il testo è stato aggiornato correttamente, ma sono stati riscontrati questi errori:

Al momento non siamo in grado di convertire l'attività in un problema. Per favore riprova.

Il problema è stato creato con successo ma al momento non siamo in grado di aggiornare il commento.


4.11: Regressione

Come esempio dell'uso dell'analisi di regressione per le previsioni, consideriamo la possibilità di utilizzare un'altra variabile macroeconomica come il reddito personale per aiutarci a prevedere le vendite di auto. Il reddito personale viene scelto qui come variabile predittiva per due motivi: (i) è stato suggerito come predittore delle vendite di auto in un libro di testo precedentemente utilizzato in questo corso e (ii) è stato popolare come variabile predittiva per tutti i tipi di cose in progetti degli studenti in questo corso in passato. L'intuizione dietro l'utilizzo del reddito come variabile predittiva è ovvia: più reddito devono spendere i consumatori, più soldi spenderanno per le automobili e tutto il resto, giusto? Quindi vediamo come possiamo farcela.

Come abbiamo già visto, le vendite di auto sono una variabile fortemente stagionale, mentre il reddito personale non lo è. Abbiamo ormai familiarità con l'uso dell'adeguamento stagionale per tenere conto della stagionalità in un modello di previsione, quindi lavoreremo con le vendite di auto destagionalizzate. Possiamo utilizzare la procedura di scomposizione stagionale in Statgraphics per calcolare e memorizzare i valori destagionalizzati di AUTOSALE con un altro nome, ad esempio AUTOADJ. Nel frattempo, il reddito personale è stato archiviato sotto il nome INCOME. Il primo passo nella nostra analisi dell'effetto di INCOME su AUTOADJ dovrebbe essere quello di disegnare alcuni grafici. Ecco un grafico delle serie temporali di entrambe le variabili, come disegnato dalla procedura Multiple XY Plot:

Si osserva che l'andamento di INCOME corrisponde molto da vicino all'andamento di AUTOADJ, sebbene AUTOADJ sembri avere un andamento ciclico più pronunciato. Ma aspetta: entrambe queste variabili sono misurate in dollari nominali. Forse l'inflazione è stata responsabile di gran parte della tendenza comune. Sgonfiamo entrambe le serie dall'indice dei prezzi al consumo (1983=1,0) per vedere cosa è successo in termini reali:

Ora vediamo prove di comportamento ciclico in entrambe le serie, sebbene sia ancora un po' più forte nella serie AUTOADJ. Quindi chiediamoci: esiste una relazione lineare significativa tra queste due variabili? Un grafico a dispersione (ovvero un grafico di AUTOADJ/CPI rispetto a REDDITO/CPI, disegnato con la procedura del grafico X-Y) farà luce su questa domanda:

Chiaramente c'è una forte evidenza di una relazione lineare. Procediamo, quindi, ad adattare un modello di regressione lineare.

Esistono diverse procedure che potremmo utilizzare in Statgraphics per adattare un semplice modello di regressione: Regressione semplice, Regressione multipla, Regressione avanzata (nella versione 2.1) o la procedura di previsione. Proviamo il solito cavallo di battaglia per tutti gli usi, vale a dire la procedura di regressione multipla. Ora, i dati disponibili si estendono dal gennaio 1970 al febbraio 1996. In tutta la nostra analisi successiva, terremo le ultime 26 osservazioni, ovvero tutto dal gennaio 1994 in poi, a scopo di convalida. (Abbiamo già utilizzato tutti i dati per stimare gli indici stagionali, ma non importa questa complicazione.) Nella procedura di regressione multipla, possiamo conservare i dati 1994-96 inserendo YEAR<1994 nel campo "Select" del pannello di immissione dati.

Dopo aver specificato AUTOADJ/CPI come variabile dipendente e INCOME come variabile indipendente, il report di riepilogo dell'analisi (fare clic qui) fornisce le statistiche di riepilogo standard per un modello di regressione. (Nella versione 2 di Statgraphics, include anche i commenti di StatAdvisor.) Si noti che il valore R al quadrato sembra abbastanza soddisfacente: 72,7254%. In altre parole, utilizzando INCOME/CPI come predittore, abbiamo spiegato quasi il 73% della varianza in AUTOADJ/CPI. E come ci aspetteremmo con un R-quadrato così alto, il coefficiente stimato di REDDITO/CPI è molto significativamente diverso da zero: la sua statistica t è maggiore di 27, mentre qualsiasi valore maggiore di 2 è normalmente considerato significativo. Il coefficiente stimato è 0,0782192, mentre l'errore standard del coefficiente è solo 0,0028257. La statistica t è uguale al coefficiente stimato diviso per il suo errore standard e quindi rappresenta il "numero di errori standard da zero".

L'opzione "Interval Plot" ci fornisce un grafico della linea di regressione adattata sovrapposta al grafico a dispersione, che conferma visivamente la forte relazione lineare:

Quindi, questo è un buon modello per la previsione? Ci sono alcune altre cose che dovremmo considerare prima di concludere che lo è, se stiamo attenti. Ad esempio, la statistica Durbin-Watson nel report Riepilogo analisi è 0,449251. La statistica DW verifica la presenza di un'autocorrelazione significativa, nota anche come correlazione seriale, al ritardo 1 e un valore "buono" per la statistica DW è qualcosa di vicino a 2.0. Non ho idea del perché questa statistica sia onnipresente nei software di regressione: il programma potrebbe anche riportare il coefficiente di autocorrelazione lag-1, o ancora meglio, mostrarti un grafico della funzione di autocorrelazione residua! La statistica DW è approssimativamente uguale a 2(1-a), dove a è il coefficiente di autocorrelazione lag-1. Come regola empirica molto approssimativa, dovresti essere sospettoso di una statistica DW inferiore a 1,4 (corrispondente a un'autocorrelazione lag-1 maggiore di 0,3) o una statistica DW maggiore di 2,6 (corrispondente a un'autocorrelazione lag-1 meno di -0.3.) Non c'è niente di magico in questi valori - infatti, dovrebbero essere usate tolleranze più piccole per campioni di dimensioni maggiori di 50, come abbiamo qui. Lo StatAdvisor ha già lanciato un allarme, commentando che "La statistica Durbin-Watson (DW) verifica i residui per determinare se esiste una correlazione significativa in base all'ordine in cui si verificano nel file di dati. Poiché il valore DW è inferiore a 1,4, potrebbe esserci qualche indicazione di correlazione seriale. Tracciare i residui rispetto all'ordine delle righe per vedere se c'è uno schema che può essere visto." Tracciare i residui rispetto al numero di riga (cioè rispetto al tempo) è sempre una buona idea quando si ha a che fare con dati di serie temporali, ed ecco cosa il grafico sembra in questo caso:

Cavolo! C'è un problema piuttosto serio qui: i residui hanno chiaramente un modello molto forte di autocorrelazione positiva--notare le lunghe serie di errori con lo stesso segno--che è forse il risultato della variabile INCOME che non spiega completamente le variazioni cicliche in AUTOADJ che abbiamo commentato all'inizio.

Avremmo potuto notare questo problema in precedenza e saremmo stati in una posizione migliore per affrontarlo se avessimo utilizzato invece la procedura di previsione. La procedura di previsione include molti altri strumenti per la manipolazione e l'analisi dei dati delle serie temporali. Per adattare un modello di regressione nella procedura di previsione, impostare il tipo di modello su "Media" e quindi premere il pulsante "Regressione". Hai quindi l'opportunità di specificare variabili indipendenti da aggiungere all'equazione di previsione (oltre a un termine costante). Una cosa a cui prestare attenzione: se si utilizzano variabili regressori (indipendenti), non è possibile richiedere la generazione di previsioni per il futuro a meno che i valori per i regressori non siano disponibili per quei periodi. In questo caso, non disponiamo di dati futuri su REDDITO/IPC (problema minore su cui torneremo in seguito), quindi non genereremo alcuna previsione nel futuro. Tuttavia, manterremo 26 valori per la convalida, in modo che solo i dati precedenti al 1994 vengano utilizzati per adattare il modello, come nella procedura di regressione multipla. Il rapporto Riepilogo analisi (clicca qui) mostra molte delle stesse statistiche riassuntive che abbiamo visto prima, con la notevole eccezione di R-squared, che non è una grande perdita! Naturalmente, i coefficienti stimati e le statistiche di errore nel periodo di stima sono esattamente gli stessi di prima.

Una cosa che questo rapporto include e che non abbiamo visto prima è un confronto delle prestazioni del modello nei periodi di stima e di validazione: l'errore assoluto medio nel periodo di stima è 1.64644, mentre sale a 3.05438 nel periodo di validazione. La verità sulle prestazioni del modello nel periodo di convalida è ancora peggiore, come vediamo quando osserviamo un grafico dei valori effettivi e delle previsioni:

Non solo gli errori sono più grandi, in media, nel periodo di validazione rispetto al periodo di previsione, ma infatti ogni singola previsione nel periodo di validazione (1994 e oltre) è significativamente al di sotto del valore effettivo, e si allontana col passare del tempo . Questa è una correlazione seriale con una vendetta! (A proposito, potresti notare che questo grafico assomiglia moltissimo al grafico XY multiplo delle due variabili di input che abbiamo disegnato in precedenza. In effetti, è esattamente lo stesso del grafico precedente tranne per il fatto che la variabile REDDITO/CPI ha è stato semplicemente ridimensionato ed etichettato come "previsione" per AUTOADJ/CPI: questo è esattamente ciò che accade in un semplice modello di regressione.)

La procedura di previsione ovviamente include un grafico di autocorrelazione dei residui, quindi possiamo vedere la dimensione completa del problema:

Questa è una trama di autocorrelazione residua così brutta come spereresti di vedere!

Come se non avessimo accumulato abbastanza abusi su questo povero modello, c'è un altro confronto poco lusinghiero che possiamo fare: confrontiamolo con alcuni dei modelli di serie temporali "noiosi" che abbiamo considerato in precedenza: la passeggiata casuale (con e senza crescita) , modelli di livellamento esponenziale semplice e livellamento esponenziale lineare . Il Model Comparison Report (clicca qui) mostra qualcosa di straordinario: tutti i semplici modelli di serie temporali superano notevolmente il modello di regressione, nonostante l'impressionante R-quadrato di quest'ultimo! I due migliori modelli sembrano essere i modelli di livellamento esponenziale: il modello di livellamento esponenziale semplice fa leggermente meglio nel periodo di stima, mentre il modello di livellamento esponenziale lineare fa leggermente meglio nel periodo di validazione, forse a causa della tendenza al rialzo costante in quest'ultimo periodo . (Il termine di crescita non sembra aggiungere molto al modello di passeggiata casuale, anche se presumibilmente sarebbe meglio per previsioni a più lungo orizzonte.) Ad esempio, il MAE per il livellamento esponenziale lineare nel periodo di convalida è solo 0,84, contro 3,05 per il modello di regressione. Ecco un grafico delle previsioni per il modello di livellamento esponenziale lineare:

. ed ecco le autocorrelazioni residue, piuttosto più soddisfacenti di quelle del modello di regressione!

  1. Un r-quadrato elevato non significa necessariamente un modello di regressione "buono" a fini di previsione.
  2. Un semplice modello di serie temporali può avere prestazioni nettamente superiori a un modello di regressione più complicato.

Cosa è andato storto con il modello di regressione? Si potrebbero trovare una serie di scuse per spiegare le sue scarse prestazioni. Ad esempio, abbiamo notato all'inizio che la variabile INCOME non sembrava avere lo stesso tipo di comportamento ciclico della variabile AUTOSALE - forse ci sono altre variabili di indicatori economici che potrebbero essere aggiunte al modello di regressione per catturare meglio la ciclicità . Questa è la spiegazione della "variabile omessa" che viene spesso invocata per spiegare le scarse prestazioni del modello di regressione.

Ma ci sono alcune lezioni più profonde qui. Uno è che è spesso pericoloso far regredire una serie temporale non stazionaria su un'altra serie temporale non stazionaria, in particolare se entrambe hanno tendenze significative. Senza dubbio otterrai un R al quadrato alto, ma questo non significa necessariamente nulla in questo caso. Ricorda che R al quadrato rappresenta la "percentuale di varianza spiegata" nella variabile dipendente. Ora, una variabile che non è stazionaria, ad esempio una variabile che è una vera passeggiata casuale e/o ha una tendenza persistente, non ha una varianza "vera". La varianza del campione cresce semplicemente con l'aumentare della dimensione del campione e se la dimensione del campione diventasse infinita (ad esempio, se considerassimo le proprietà "asintotiche" del modello), anche la varianza andrebbe all'infinito. Poiché l'intero concetto di una varianza ben definita è discutibile per una tale serie, anche il concetto di "percentuale di varianza spiegata" è discutibile.

Ad esempio, prendiamo due serie qualsiasi con forti tendenze al rialzo, ad esempio le vendite al dettaglio di automobili negli Stati Uniti (in dollari nominali) e la popolazione del Pakistan. Se si calcola il loro coefficiente di correlazione (ad es. "r"), potrebbe essere maggiore di 0,95. E se regredisci l'uno sull'altro, potresti ottenere un R al quadrato maggiore del 90%. Questo significa che uno è un buon predittore dell'altro? Ovviamente no: l'R-quadrato alto significa semplicemente che una serie con un trend è molto meglio prevista da un'altra serie con un trend che da un modello "costante". (Ricorda che R-quadrato misura essenzialmente la riduzione della varianza rispetto al modello costante.) Ma, in tal caso, potresti probabilmente fare ancora meglio, forse molto meglio, usando un modello che predice la serie dal suo propria storia, come una passeggiata casuale, un livellamento esponenziale o un modello ARIMA .

Questo significa che la regressione non è una tecnica di previsione utile? Affatto! Significa solo che quando si lavora con dati di serie temporali, è necessario essere consapevoli che un modello di regressione potrebbe non riuscire a sfruttare la "dimensione temporale" a meno che le variabili non vengano scelte con cura. In particolare, potresti prendere in considerazione l'utilizzo di variabili ritardate e/o differenziate nell'equazione di previsione, in modo che parte della cronologia delle variabili dipendenti e/o indipendenti, nonché i loro valori correnti, venga utilizzata nella previsione.


Guarda il video: BRIAN WEISS - Meditazione Guidata con regressione alle vite precedenti (Settembre 2021).