Caracterizar uma série de tempo envolve estimar não apenas um desvio médio e padrão, mas também as correlações entre observações separadas no tempo. Na fase de identificação do procedimento de Box Jenkins, a autocorrelação empírica (ACF) bem como a função de autocorrelação parcial (PACF) são ferramentas importantes. A função de autocorrelação mede a força da relação entre e. Por exemplo, se perto de um, um alto valor de será seguido por um valor elevado amanhã. O ACF é uma ferramenta importante na identificação da ordem dos modelos de séries temporais de média móvel. As autocorrelações parciais medem a intensidade da relação entre observações em uma série de tempo controlando o efeito de períodos de tempo intermediários. Especificamente, autocorrelações parciais são úteis na identificação da ordem de modelos autorregressivos. As parcelas de ACF e PACF são chamadas de correlograma. A estatística de Ljung-Box (Q-estatística) à lag k é uma estatística de teste para a hipótese nula de que não há autocorrelação até ordem k. A definição é: é assintoticamente distribuída como a com graus de liberdade iguais ao número de autocorrelações. A autocorrelação de uma série com defasagem é estimada por: onde é a média da amostra das séries temporais. A autocorrelação parcial de uma série é estimada por: O Add-In é escrito em VBA. Todos os links serão abertos em uma nova janela Xycoon, Análise de Séries Temporais - Modelos ARIMA - Definições Básicas e Teoremas sobre modelos ARIMA (HTML) mathworld. Descrição da autocorrelação. (HTML) Links para outros sites a partir destas páginas são apenas para informação e Kurt Annen não aceita qualquer responsabilidade ou responsabilidade pelo acesso ou material sobre qualquer site que está vinculado a partir deste ou para este site. Para baixar clique no nome do arquivo O correlogram Add-In foi escrito por Kurt Annen. Este programa é freeware. Mas eu apreciaria altamente se você poderia me dar o crédito para meu trabalho fornecendo me com informação sobre posições possíveis abertas como um economista. Meu foco como economista é sobre econometria e macroeconomia dinâmica. Se você gosta do programa, por favor me envie um e-mail. O modelo de previsão deve incluir recursos que capturam todas as propriedades qualitativas importantes dos dados: padrões de variação no nível e tendência, efeitos da inflação e sazonalidade, correlações entre as variáveis, etc. Além disso, Os pressupostos subjacentes ao seu modelo escolhido devem concordar com a sua intuição sobre como a série é susceptível de se comportar no futuro. Ao montar um modelo de previsão, você tem algumas das seguintes opções: Estas opções são descritas resumidamente abaixo. Consulte o fluxograma de previsão que acompanha uma visão pictórica do processo de especificação do modelo e consulte novamente o painel Especificação do Modelo Statgraphics para ver como os recursos do modelo são selecionados no software. Deflação Se a série mostrar um crescimento inflacionário, então a deflação ajudará a explicar o padrão de crescimento e reduzir a heteroscedasticidade nos resíduos. Você pode (i) esvaziar os dados passados e reinflar as previsões de longo prazo a uma taxa constante adotada, ou (ii) desinflar os dados passados por um índice de preços como o IPC, e então quotmanualmente reinflar as previsões de longo prazo usando Uma previsão do índice de preços. A opção (i) é a mais fácil. No Excel, você pode apenas criar uma coluna de fórmulas para dividir os valores originais pelos fatores apropriados. Por exemplo, se os dados são mensais e você quer deflacionar a uma taxa de 5 por 12 meses, você dividiria por um fator de (1.05) (k12) onde k é o índice de linha (número de observação). RegressIt e Statgraphics têm ferramentas embutidas que fazem isso automaticamente para você. Se você seguir esta rota, geralmente é melhor definir a taxa de inflação assumida igual à sua melhor estimativa da taxa atual, especialmente se você estiver indo para prever mais de um período à frente. Se preferir a opção (ii), primeiro você deve salvar as previsões deflacionadas e os limites de confiança na sua planilha de dados, em seguida, gerar e salvar uma previsão para o índice de preços e, finalmente, multiplicar as colunas apropriadas. Transformação logarítmica Se a série mostra um crescimento composto e / ou um padrão sazonal multiplicativo, uma transformação logarítmica pode ser útil em adição ou em substituição à deflação. Registrando os dados não vai achatar um padrão de crescimento inflacionário, mas vai endireitá-lo para que ele pode ser ajustado por um modelo linear (por exemplo, um passeio aleatório ou modelo ARIMA com crescimento constante, ou um modelo de suavização linear exponencial). Além disso, o log irá converter padrões sazonais multiplicativos para padrões aditivos, de modo que se você executar o ajuste sazonal após o registro, você deve usar o tipo aditivo. Logging lida com a inflação de forma implícita se você quiser inflação a ser modelado explicitamente - i. e. Se você quiser que a taxa de inflação seja um parâmetro visível do modelo ou se você quiser exibir gráficos de dados deflacionados - então você deve desinflar ao invés de logar. Outro uso importante para a transformação do log é linearizar as relações entre variáveis em um modo de regressão l. Por exemplo, se a variável dependente for uma função multiplicativa em vez de aditiva das variáveis independentes, ou se a relação entre variáveis dependentes e independentes for linear em termos de variações percentuais em vez de mudanças absolutas, então aplicando uma transformação de log a uma ou mais variáveis Pode ser apropriado, como no exemplo de vendas de cerveja. (Retornar ao início da página). Ajuste sazonal Se a série tiver um forte padrão sazonal que se acredita ser constante de ano para ano, o ajuste sazonal pode ser uma maneira apropriada de estimar e extrapolar o padrão. A vantagem do ajuste sazonal é que ele modela o padrão sazonal explicitamente, dando-lhe a opção de estudar os índices sazonais e os dados dessazonalizados. A desvantagem é que ela exige a estimativa de um grande número de parâmetros adicionais (particularmente para dados mensais), e não fornece nenhuma razão teórica para o cálculo de intervalos de confiança quotcorrect. A validação fora da amostra é especialmente importante para reduzir o risco de ajuste excessivo dos dados passados através de ajuste sazonal. Se os dados são fortemente sazonais, mas você não escolhe ajuste sazonal, as alternativas são para (i) usar um modelo ARIMA sazonal. Que implícitamente prevê o padrão sazonal usando defasagens e diferenças sazonais, ou (ii) use o modelo de suavização exponencial sazonal de Winters, que estima os índices sazonais variando no tempo. Quota de variáveis independentes Se houver outras séries cronológicas que você acredita ter poder explicativo com relação à sua série de interesses (por exemplo, indicadores econômicos ou variáveis de políticas como preço, publicidade, promoções, etc.) você Pode desejar considerar a regressão como seu tipo de modelo. Se você escolhe ou não a regressão, você ainda precisa considerar as possibilidades mencionadas acima para transformar suas variáveis (deflação, log, ajuste sazonal - e talvez também diferencial) para explorar a dimensão do tempo e / ou linearizar as relações. Mesmo que você não escolha a regressão neste ponto, talvez você queira considerar adicionar regressores mais tarde a um modelo de séries temporais (por exemplo, um modelo ARIMA) se os resíduos tiverem correlação cruzada signficante com outras variáveis. (Voltar ao início da página.) Alisamento, média ou caminhada aleatória Se você tiver escolhido ajustar os dados sazonalmente - ou se os dados não forem sazonais para começar - então você pode usar um modelo de média ou suavização para Ajuste o padrão não sazonal que permanece nos dados neste ponto. Uma média móvel simples ou um modelo de suavização exponencial simples calcula apenas uma média local de dados no final da série, partindo do pressuposto de que esta é a melhor estimativa do valor médio actual em torno do qual os dados estão a flutuar. Normalmente, a suavização exponencial simples é preferida a uma média móvel simples, pois sua média ponderada exponencialmente faz um trabalho mais sensato de descontar os dados mais antigos, porque a sua média O parâmetro de suavização (alfa) é contínuo e pode ser prontamente optimizado, e porque tem uma base teórica subjacente para calcular intervalos de confiança. Se a suavização ou a média não parecer ser útil - i. e. Se o melhor preditor do próximo valor da série de tempo é simplesmente o seu valor anterior - então um modelo de caminhada aleatória é indicado. Este é o caso, por exemplo, se o número ótimo de termos na média móvel simples for 1, ou se o valor ótimo de alfa em suavização exponencial simples for 0,9999. Browns linear suavização exponencial pode ser usado para ajustar uma série com tendências lineares lentamente variar o tempo, mas ser cauteloso sobre a extrapolação dessas tendências muito longe no futuro. (Os intervalos de confiança que se alargam rapidamente para este modelo testemunham a sua incerteza quanto ao futuro distante.) O alisamento linear de Holts também estima tendências que variam no tempo, mas utiliza parâmetros separados para suavizar o nível e a tendência, o que geralmente proporciona um melhor ajuste aos dados Do que o modelo Brown8217s. Q uadratic suavização exponencial tenta estimar o tempo variando tendências quadráticas, e praticamente nunca deve ser usado. (Isto corresponderia a um modelo ARIMA com três ordens de diferenciação não sazonal). A suavização exponencial linear com tendência amortecida (isto é, uma tendência que se aplana em horizontes distantes) é frequentemente recomendada em situações onde o futuro é muito incerto. Os vários modelos exponenciais de suavização são casos especiais de modelos ARIMA (descritos abaixo) e podem ser equipados com software ARIMA. Em particular, o modelo de suavização exponencial simples é um modelo ARIMA (0,1,1), o modelo de suavização linear Holt8217s é um modelo ARIMA (0,2,2) eo modelo de tendência amortecida é um ARIMA (1,1,2 ) modelo. Um bom resumo das equações dos vários modelos de suavização exponencial pode ser encontrado nesta página no site da SAS. Os modelos de linha de tendência lineares, quadráticos ou exponenciais são outras opções para extrapolar uma série dessazonalizada, mas raramente superam a marcha aleatória, o alisamento ou ARIMA em dados de negócios. (Retornar ao início da página.) Invernos Seasonal Exponential Smoothing Winters O Seasonal Smoothing é uma extensão de suavização exponencial que estima simultaneamente os fatores de variação temporal, tendência e sazonal usando equações recursivas. Os fatores sazonais de Invernos podem ser multiplicativos ou aditivos: normalmente você deve escolher a opção multiplicativa a menos que tenha registrado os dados. Embora o modelo de Winters seja inteligente e razoavelmente intuitivo, pode ser difícil de aplicar na prática: tem três parâmetros de suavização - alfa, beta e gama - para separar o nível, a tendência e os fatores sazonais, que devem ser estimados simultaneamente. A determinação dos valores iniciais para os índices sazonais pode ser feita aplicando-se o método da média da relação-para-movimentação de ajuste sazonal para parte ou toda a série e ou por backforecasting. O algoritmo de estimação que Statgraphics usa para esses parâmetros às vezes não consegue convergir e / ou rende valores que dão previsões bizarras e intervalos de confiança, então eu recomendaria cautela ao usar este modelo. (Voltar ao início da página.) ARIMA Se você não escolher o ajuste sazonal (ou se os dados não forem sazonais), você pode usar o modelo ARIMA. Modelos ARIMA são uma classe muito geral de modelos que inclui caminhada aleatória, tendência aleatória, suavização exponencial e modelos autorregressivos como casos especiais. A sabedoria convencional é que uma série é um bom candidato para um modelo ARIMA se (i) ele pode ser estacionalizado por uma combinação de diferenciação e outras transformações matemáticas, como o registro, e (ii) você tem uma quantidade substancial de dados para trabalhar com : Pelo menos 4 estações completas no caso de dados sazonais. (Se a série não pode ser estacionada adequadamente por diferenças - por exemplo, se é muito irregular ou parece estar qualitativamente mudando seu comportamento ao longo do tempo - ou se você tiver menos de 4 estações de dados, então você pode ser melhor com um modelo Que usa o ajuste sazonal e algum tipo de média ou de suavização simples.) Os modelos de ARIMA têm uma convenção de nomeação especial introduzida por Caixa e por Jenkins. Um modelo não-sazonal ARIMA é classificado como um modelo ARIMA (p, d, q), onde d é o número de diferenças não sazonais, p é o número de termos autorregressivos (atrasos das séries diferenciadas) e q é o número de movimento - Termos médios (atrasos dos erros de previsão) na equação de predição. Um modelo ARIMA sazonal é classificado como ARIMA (p, d, q) x (P, D, Q). Onde D, P e Q são, respectivamente, o número de diferenças sazonais, os termos sazonais autorregressivos (defasagens das séries diferenciadas em múltiplos do período sazonal) e os termos da média móvel sazonal (desfasamentos dos erros de previsão em múltiplos do período sazonal período). O primeiro passo na montagem de um modelo ARIMA é determinar a ordem apropriada de diferenciação necessária para estacionar a série e remover as características brutas da sazonalidade. Isso equivale a determinar qual modelo de caminhada aleatória ou de tendência aleatória é o melhor ponto de partida. Não tente usar mais do que 2 ordens totais de diferenciação (não sazonal e sazonal combinada) e não use mais de uma diferença sazonal. A segunda etapa é determinar se deve incluir um termo constante no modelo: geralmente você inclui um termo constante se a ordem total de diferenciação for 1 ou menos, caso contrário você não. Em um modelo com uma ordem de diferenciação, o termo constante representa a tendência média nas previsões. Em um modelo com duas ordens de diferenciação, a tendência das previsões é determinada pela tendência local observada no final da série temporal e o termo constante representa a tendência na tendência, ou seja, a curvatura do longo prazo, Prazo. Normalmente, é perigoso extrapolar tendências em tendências, então você suprimir o termo contante neste caso. O terceiro passo é escolher os números de parâmetros de média autorregressiva e móvel (p, d, q, P, D, Q) necessários para eliminar qualquer autocorrelação que permanece nos resíduos do modelo ingênuo (ou seja, qualquer correlação que permaneça após Mera diferenciação). Estes números determinam o número de defasagens das séries diferenciadas e / ou os atrasos dos erros de previsão que estão incluídos na equação de previsão. Se não houver autocorrelação significativa nos resíduos neste momento, então STOP, você está pronto: o melhor modelo é um modelo ingênuo Se houver autocorrelação significativa nos retornos 1 ou 2, você deve tentar ajustar q1 se uma das seguintes opções for aplicada: I) existe uma diferença não sazonal no modelo, (ii) a autocorrelação de atraso 1 é negativa. Andor (iii) o gráfico de autocorrelação residual é mais limpo (menos, picos mais isolados) do que o gráfico de autocorrelação parcial residual. Se não houver diferença não sazonal no modelo e / ou a autocorrelação de atraso 1 for positiva e ou a parcela de autocorrelação parcial residual parecer mais limpa, então tente p1. (Às vezes, essas regras para escolher entre p1 e q1 conflito uns com os outros, caso em que provavelmente não faz muita diferença qual você usar. Tente ambos e comparar.) Se houver autocorrelação no atraso 2 que não é removido por configuração p1 Ou q1, você pode então tentar p2 ou q2, ou ocasionalmente p1 e q1. Mais raramente você pode encontrar situações em que p2 ou 3 e q1, ou vice-versa, produz os melhores resultados. É altamente recomendável que você não use pgt1 e qgt1 no mesmo modelo. Em geral, ao montar modelos ARIMA, você deve evitar aumentar a complexidade do modelo para obter apenas pequenas melhorias adicionais nas estatísticas de erro ou na aparência dos gráficos ACF e PACF. Além disso, em um modelo com pgt1 e qgt1, existe uma boa possibilidade de redundância e não-unicidade entre os lados AR e MA do modelo, conforme explicado nas notas sobre a estrutura matemática dos modelos ARIMA. Geralmente, é melhor prosseguir de uma forma passo a passo em vez de retroceder passo a passo ao ajustar as especificações do modelo: comece com modelos mais simples e apenas adicione mais termos se houver uma clara necessidade. As mesmas regras aplicam-se ao número de termos autorregressivos sazonais (P) e ao número de termos de média móvel sazonal (Q) em relação à autocorrelação no período sazonal (por exemplo, atraso 12 para dados mensais). Tente Q1 se já houver uma diferença sazonal no modelo e / ou a autocorrelação sazonal for negativa e ou a parcela de autocorrelação residual parecer mais limpa na vizinhança da defasagem sazonal, caso contrário, tente P1. (Se for lógico que a série exiba forte sazonalidade, então você deve usar uma diferença sazonal, caso contrário, o padrão sazonal desaparecerá ao fazer previsões de longo prazo.) Ocasionalmente, você pode querer tentar P2 e Q0 ou vice-v ersa, Ou PQ1. No entanto, é altamente recomendável que PQ nunca deve ser maior do que 2. Padrões sazonais raramente têm o tipo de regularidade perfeita sobre um número suficientemente grande de estações que permitiriam identificar e estimar com fiabilidade muitos parâmetros. Além disso, o algoritmo backforecasting que é usado na estimação de parâmetros é susceptível de produzir resultados não confiáveis (ou mesmo louco) quando o número de estações de dados não é significativamente maior do que PDQ. Gostaria de recomendar não menos do que PDQ2 temporadas completas, e mais é melhor. Mais uma vez, quando se encaixam modelos ARIMA, você deve ter cuidado para evitar excesso de ajuste os dados, apesar do fato de que ele pode ser muito divertido uma vez que você pegar o jeito dele. Casos especiais importantes: Como observado acima, um modelo ARIMA (0,1,1) sem constante é idêntico a um modelo de suavização exponencial simples, e assume um nível flutuante (isto é, sem reversão média), mas com tendência de longo prazo. Um modelo ARIMA (0,1,1) com constante é um modelo de suavização exponencial simples com um termo de tendência linear não nulo incluído. Um modelo ARIMA (0,2,1) ou (0,2,2) sem constante é um modelo de suavização exponencial linear que permite uma tendência variável no tempo. Um modelo ARIMA (1,1,2) sem constante é um modelo de suavização exponencial linear com tendência amortecida, isto é, uma tendência que eventualmente se aplana em previsões de longo prazo. Os modelos ARIMA sazonais mais comuns são o modelo ARIMA (0,1,1) x (0,1,1) sem constante eo modelo ARIMA (1,0,1) x (0,1,1) com constante. O primeiro destes modelos aplica basicamente suavização exponencial tanto às componentes não sazonais como sazonais do padrão nos dados, ao mesmo tempo que permite uma tendência variável no tempo, eo último modelo é um pouco semelhante, mas assume uma tendência linear constante e, portanto, um pouco mais longo - previsibilidade a longo prazo. Você deve sempre incluir estes dois modelos entre sua linha de suspeitos ao ajustar dados com padrões sazonais consistentes. Um deles (talvez com uma pequena variação tal aumento p ou q por 1 andor ou configuração P1, bem como Q1) é muitas vezes o melhor. (Retornar ao início da página) Identificando os números dos termos AR ou MA em um modelo ARIMA As parcelas ACF e PACF: Depois de uma série temporal ter sido estacionada por diferenciação, a próxima etapa na montagem de um modelo ARIMA é determinar se AR ou MA Termos são necessários para corrigir qualquer autocorrelação que permanece na série diferenciada. Claro, com software como Statgraphics, você poderia apenas tentar algumas combinações diferentes de termos e ver o que funciona melhor. Mas há uma maneira mais sistemática de fazer isso. Observando os gráficos de função de autocorrelação (ACF) e de autocorrelação parcial (PACF) das séries diferenciadas, você pode identificar tentativamente os números de AR e / ou MA que são necessários. Você já está familiarizado com a trama ACF: é apenas um gráfico de barras dos coeficientes de correlação entre uma série de tempo e defasagens de si mesmo. O gráfico do PACF é um gráfico dos coeficientes de correlação parcial entre a série e os atrasos de si. Em geral, a correlação quotpartial entre duas variáveis é a quantidade de correlação entre elas que não é explicada por suas correlações mútuas com um conjunto especificado de outras variáveis. Por exemplo, se estivermos regredindo uma variável Y em outras variáveis X1, X2 e X3, a correlação parcial entre Y e X3 é a quantidade de correlação entre Y e X3 que não é explicada por suas correlações comuns com X1 e X2. Esta correlação parcial pode ser calculada como a raiz quadrada da redução na variância que é conseguida pela adição de X3 à regressão de Y em X1 e X2. Uma auto-correlação parcial é a quantidade de correlação entre uma variável e uma defasagem de si mesma que não é explicada por correlações em todas as lâminas de ordem inferior. A autocorrelação de uma série temporal Y no intervalo 1 é o coeficiente de correlação entre Y t e Y t - 1. Que é presumivelmente também a correlação entre Y t -1 e Y t -2. Mas se Y t é correlacionado com Y t -1. E Y t -1 está igualmente correlacionado com Y t -2. Então devemos também esperar encontrar correlação entre Y t e Y t-2. De fato, a quantidade de correlação que deveríamos esperar no retardo 2 é precisamente o quadrado da correlação lag-1. Assim, a correlação em lag 1 quotpropagatesquot a lag 2 e presumivelmente para atrasos de ordem superior. A autocorrelação parcial no intervalo 2 é, portanto, a diferença entre a correlação real no retardo 2 e a correlação esperada devido à propagação da correlação no retardo 1. Aqui está a função de autocorrelação (ACF) da série UNITS, antes de qualquer diferenciação ser realizada: As autocorrelações são significativas para um grande número de defasagens - mas talvez as autocorrelações nos intervalos 2 e acima sejam meramente devidas à propagação da autocorrelação na defasagem 1. Isto é confirmado pelo gráfico PACF: Note que a parcela PACF tem um significado significativo Pico apenas no intervalo 1, o que significa que todas as autocorrelações de ordem superior são efetivamente explicadas pela autocorrelação lag-1. As autocorrelações parciais em todos os atrasos podem ser calculadas ajustando uma sucessão de modelos autorregressivos com números crescentes de defasagens. Em particular, a autocorrelação parcial com atraso k é igual ao coeficiente AR (k) estimado em um modelo autorregressivo com k termos - isto é. Um modelo de regressão múltipla no qual Y é regredido em LAG (Y, 1), LAG (Y, 2), etc. até LAG (Y, k). Assim, por mera inspeção do PACF você pode determinar quantos termos AR você precisa usar para explicar o padrão de autocorrelação em uma série de tempo: se a autocorrelação parcial é significativa em lag k e não significativa em qualquer maior atraso de ordem - ou seja. Se o PACF quotcuts offquot em lag k - então isso sugere que você deve tentar ajustar um modelo autorregressivo de ordem k PACF da série UNITS fornece um exemplo extremo do fenômeno de corte: tem um pico muito grande no intervalo 1 E nenhum outro pico significativo, indicando que na ausência de diferenciação um AR (1) modelo deve ser usado. No entanto, o termo AR (1) neste modelo resultará ser equivalente a uma primeira diferença, porque o coeficiente AR (1) estimado (que é a altura do pico PACF no intervalo 1) será quase exatamente igual a 1 . Agora, a equação de previsão para um modelo AR (1) para uma série Y sem ordens de diferenciação é: Se o coeficiente de AR (1) 981 1 nesta equação for igual a 1, é equivalente a prever que a primeira diferença De Y é constante - ie É equivalente à equação do modelo de caminhada aleatória com crescimento: O PACF da série UNITS está nos dizendo que, se não a diferenciar, então devemos ajustar um modelo AR (1) que se tornará equivalente a tomar Uma primeira diferença. Em outras palavras, está nos dizendo que UNITS realmente precisa de uma ordem de diferenciação para ser estacionalizada. AR e MA assinaturas: Se o PACF exibe um afiado corte enquanto o ACF decai mais lentamente (ou seja, tem picos significativos em maior defasagens), dizemos que a série estacionária exibe um quotAR assinatura, quot que significa que o padrão de autocorrelação pode ser explicado com mais facilidade Adicionando termos AR mais do que adicionando termos MA. Você provavelmente encontrará que uma assinatura AR é comumente associada com autocorrelação positiva no retardo 1 - isto é. Ele tende a surgir em séries que são ligeiramente sub diferenciadas. A razão para isto é que um termo AR pode agir como uma diferença quotpartial na equação de previsão. Por exemplo, em um modelo AR (1), o termo AR age como uma primeira diferença se o coeficiente autorregressivo for igual a 1, ele não faz nada se o coeficiente autorregressivo for zero e ele age como uma diferença parcial se o coeficiente estiver entre 0 e 1. Portanto, se a série é ligeiramente subdiferenciada - ie Se o padrão não estacionário de autocorrelação positiva não tiver sido completamente eliminado, ele irá cotar para uma diferença parcial exibindo uma assinatura AR. Portanto, temos a seguinte regra para determinar quando adicionar termos AR: Regra 6: Se o PACF da série diferenciada exibe um corte brusco e ou a autocorrelação lag-1 é positivo - i. e. Se a série aparece ligeiramente quotunderdifferencedquot - então considere adicionar um termo AR para o modelo. O intervalo em que o PACF corta é o número indicado de termos AR. Em princípio, qualquer padrão de autocorrelação pode ser removido de uma série estacionária adicionando termos auto-regressivos suficientes (defasagens da série estacionária) à equação de previsão, eo PACF indica quantos desses termos provavelmente serão necessários. No entanto, isso nem sempre é a maneira mais simples de explicar um determinado padrão de autocorrelação: às vezes é mais eficiente adicionar MA termos (atrasos dos erros de previsão) em vez disso. A função de autocorrelação (ACF) desempenha a mesma função para os termos MA que o PACF reproduz para os termos AR - ou seja, o ACF informa quantos termos MA são prováveis de serem necessários para remover a autocorrelação remanescente da série diferenciada. Se a autocorrelação é significativa à lag k, mas não em qualquer defasagem maior - i. e. Se o ACF quotcuts offquot em lag k - isso indica que exatamente k MA termos devem ser utilizados na previsão equação. No último caso, dizemos que a série estacionária exibe uma assinatura quotMA, significando que o padrão de autocorrelação pode ser explicado mais facilmente adicionando termos MA do que adicionando termos AR. Uma assinatura de MA é comumente associada com autocorrelação negativa no retardo 1 - isto é. Tende a surgir em séries que são ligeiramente mais diferenciadas. A razão para isto é que um termo MA pode quotparcialmente cancelar uma ordem de diferenciação na equação de previsão. Para ver isso, lembre-se que um modelo ARIMA (0,1,1) sem constante é equivalente a um modelo Simple Exponential Smoothing. A equação de previsão para este modelo é onde o coeficiente MA (1) 952 1 corresponde à quantidade 1 - 945 no modelo SES. Se 952 1 for igual a 1, isso corresponde a um modelo SES com 945 0, que é apenas um modelo CONSTANTE porque a previsão nunca é atualizada. Isto significa que quando 952 1 é igual a 1, está realmente cancelando a operação de diferenciação que normalmente permite que a previsão SES se ancore novamente na última observação. Por outro lado, se o coeficiente de média móvel for igual a 0, este modelo se reduz a um modelo de caminhada aleatória - isto é. Ele deixa a operação de diferenciação sozinho. Portanto, se 952 1 é algo maior que 0, é como se estivéssemos cancelando parcialmente uma ordem de diferenciação. Se a série já está ligeiramente mais diferenciada - i. e. Se a autocorrelação negativa tiver sido introduzida - então as quotas serão feitas para que uma diferença seja parcialmente cancelada exibindo uma assinatura de MA. (Uma grande quantidade de agitação de braço está acontecendo aqui. Uma explicação mais rigorosa desse efeito é encontrada no folheto da Estrutura Matemática de Modelos ARIMA.) Daí a seguinte regra adicional: Regra 7: Se a ACF da série diferenciada exibir um Corte afiado e ou a autocorrelação lag-1 é negativo - Se a série aparece ligeiramente quotoverdifferencedquot - então considere adicionar um termo MA para o modelo. A defasagem em que o ACF corta é o número indicado de termos de MA. Um modelo para a série UNITS - ARIMA (2,1,0): Anteriormente, determinamos que a série UNITS necessitava (pelo menos) uma ordem de diferenciação não sazonal para ser estacionária. Depois de tomar uma diferença não sazonal - i. e. Se um modelo ARIMA (0,1,0) com constante - as parcelas ACF e PACF se assemelham a isto: Observe que (a) a correlação com atraso 1 é significativa e positiva, e (b) o PACF mostra um quotcutoff mais nítido do que O ACF. Em particular, o PACF tem apenas dois picos significativos, enquanto o ACF tem quatro. Assim, de acordo com a Regra 7 acima, a série diferenciada exibe uma assinatura AR (2). Se, portanto, definir a ordem do termo AR para 2 - i. e. Se um modelo ARIMA (2,1,0) - obtemos os seguintes gráficos ACF e PACF para os resíduos: A autocorrelação nos atrasos cruciais - ou seja, os retornos 1 e 2 - foi eliminada e não há nenhum padrão discernível Em atrasos de ordem superior. No entanto, o relatório de resumo de análise mostra que o modelo, no entanto, funciona bastante bem no período de validação, ambos os coeficientes AR são significativamente diferentes de zero eo padrão O desvio dos resíduos foi reduzido de 1,54371 para 1,4215 (quase 10) pela adição dos termos AR. Além disso, não há sinal de uma raiz quotunit porque a soma dos coeficientes AR (0.2522540.195572) não é próxima de 1. (As raízes unitárias são discutidas em mais detalhes abaixo). Em geral, este parece ser um bom modelo . As previsões (não-transformadas) para o modelo mostram uma tendência linear ascendente projetada para o futuro: A tendência nas previsões de longo prazo é devido ao fato de que o modelo inclui uma diferença não sazonal e um termo constante: este modelo é basicamente uma caminhada aleatória com Crescimento ajustado pela adição de dois termos autorregressivos - ou seja, Dois atrasos das séries diferenciadas. A inclinação das previsões de longo prazo (ou seja, o aumento médio de um período para outro) é igual ao termo médio no resumo do modelo (0,467566). A equação de previsão é: onde 956 é o termo constante no resumo do modelo (0.258178), 981 1 é o coeficiente AR (1) (0.25224) e 981 2 é o coeficiente AR (2) (0.195572). Média versus constante: Em geral, o termo quotmeanquot na saída de um modelo ARIMA refere-se à média das séries diferenciadas (ou seja, a tendência média se a ordem de diferenciação for igual a 1), enquanto que a quotconstante é o termo constante que aparece No lado direito da equação de previsão. Os termos médio e constante estão relacionados pela equação: CONSTANT MEAN (1 menos a soma dos coeficientes AR). Neste caso, temos 0.258178 0.467566 (1 - 0.25224 - 0.195572) Modelo alternativo para a série UNITS - ARIMA (0,2,1): Lembre-se que quando começamos a analisar a série UNITS, não estávamos inteiramente certos do Ordem correta de diferenciação para usar. Uma ordem de diferenças não sazonais apresentou o menor desvio padrão (e um padrão de autocorrelação positiva moderada), enquanto duas ordens de diferenças não sazonais renderam um gráfico de séries temporais mais estacionárias (mas com autocorrelação negativa bastante forte). Aqui estão tanto o ACF como o PACF da série com duas diferenças não sazonais: O único ponto negativo no intervalo 1 no ACF é uma assinatura MA (1), de acordo com a Regra 8 acima. Assim, se usássemos 2 diferenças não sazonais, também gostaríamos de incluir um termo MA (1), produzindo um modelo ARIMA (0,2,1). De acordo com a Regra 5, também gostaríamos de suprimir o termo constante. Observe que o desvio padrão do ruído branco estimado (RMSE) é apenas muito ligeiramente mais alto para este modelo do que o anterior (1,46301 aqui versus 1,45215 anteriormente). A equação de previsão para este modelo é: onde theta-1 é o coeficiente MA (1). Lembre-se que isto é semelhante a um modelo Linear Exponential Smoothing, com o coeficiente MA (1) correspondente à quantidade 2 (1-alfa) no modelo LES. O coeficiente MA (1) de 0,76 neste modelo sugere que um modelo LES com alfa na vizinhança de 0,72 caberia aproximadamente igualmente bem. Na verdade, quando um modelo LES é ajustado para os mesmos dados, o valor ótimo de alfa gira para fora em torno de 0,61, que não está muito longe. Aqui está um relatório de comparação de modelos que mostra os resultados do ajuste do modelo ARIMA (2,1,0) com constante, do modelo ARIMA (0,2,1) sem constante, e do modelo LES: Os três modelos têm um desempenho quase idêntico em O período de estimação eo modelo ARIMA (2,1,0) com constante aparece ligeiramente melhor do que os outros dois no período de validação. Com base apenas nestes resultados estatísticos, seria difícil escolher entre os três modelos. No entanto, se traçarmos as previsões de longo prazo feitas pelo modelo ARIMA (0,2,1) sem constante (que são essencialmente as mesmas que as do modelo LES), vemos uma diferença significativa com as do modelo anterior: As previsões têm uma tendência ligeiramente inferior à do modelo anterior - porque a tendência local próxima do final da série é ligeiramente inferior à tendência média em toda a série -, mas os intervalos de confiança aumentam muito mais rapidamente. O modelo com duas ordens de diferenciação pressupõe que a tendência da série é variável no tempo, portanto considera o futuro distante muito mais incerto do que o modelo com apenas uma ordem de diferenciação. Que modelo devemos escolher Isso depende das suposições que estamos confortáveis fazendo com respeito à constância da tendência nos dados. O modelo com apenas uma ordem de diferenciação assume uma tendência média constante - é essencialmente um modelo de caminhada aleatória com crescimento fino - e, portanto, faz projeções de tendência relativamente conservadoras. Também é bastante otimista quanto à precisão com que ele pode prever mais de um período à frente. O modelo com duas ordens de diferenciação assume uma tendência local variável no tempo - é essencialmente um modelo linear de suavização exponencial - e suas projeções de tendência são um pouco mais inconstantes. Como regra geral neste tipo de situação, eu recomendaria escolher o modelo com a ordem mais baixa de diferenciação, outras coisas sendo aproximadamente iguais. Na prática, os modelos aleatórios ou de simples-suavização exponencial parecem funcionar melhor do que os modelos lineares de suavização exponencial. Modelos mistos: Na maioria dos casos, o melhor modelo resulta em um modelo que utiliza apenas termos AR ou apenas termos MA, embora em alguns casos um modelo quotmixedquot com termos AR e MA possa fornecer o melhor ajuste para os dados. No entanto, deve-se ter cuidado ao montar modelos mistos. É possível que um termo AR e um termo MA cancelem efeitos uns dos outros. Mesmo que ambos possam parecer significativos no modelo (conforme julgado pelas t-estatísticas de seus coeficientes). Assim, por exemplo, suponha que o modelo quotcorrectquot para uma série temporal é um modelo ARIMA (0,1,1), mas em vez disso, você encaixa um modelo ARIMA (1,1,2) - isto é. Você inclui um termo AR adicional e um termo MA adicional. Em seguida, os termos adicionais podem acabar aparecendo significativa no modelo, mas internamente eles podem ser apenas trabalhar uns contra os outros. As estimativas de parâmetros resultantes podem ser ambíguas, eo processo de estimação de parâmetros pode levar muitas (por exemplo, mais de 10) iterações a convergir. Assim: Regra 8: É possível que um termo AR e um termo MA cancelem os efeitos uns dos outros, por isso, se um modelo AR-MA misturado parece ajustar-se aos dados, experimente também um modelo com menos AR e menos MA - especialmente se as estimativas de parâmetros no modelo original exigirem mais de 10 iterações para convergir. Por esta razão, os modelos ARIMA não podem ser identificados pela abordagem quotbackwardwisequot que inclui os termos AR e MA. Em outras palavras, você não pode começar por incluir vários termos de cada tipo e, em seguida, jogando para fora aqueles cujos coeficientes estimados não são significativos. Em vez disso, você normalmente segue uma abordagem passo a passo quotforward, adicionando termos de um tipo ou outro como indicado pelo aparecimento dos gráficos ACF e PACF. Raízes unitárias: Se uma série é grosseiramente sub ou sobredifferenciada - i. e. Se uma ordem inteira de diferenciação precisa ser adicionada ou cancelada, isso é frequentemente sinalizado por uma raiz quotunit nos coeficientes AR ou MA estimados do modelo. Diz-se que um modelo AR (1) tem uma raiz unitária se o coeficiente estimado de AR (1) for quase exatamente igual a 1. (Por exemplo, eu realmente não significa significativamente diferente de. Em termos do erro padrão dos coeficientes. ) Quando isso acontece, significa que o termo AR (1) está imitando exatamente uma primeira diferença, caso em que você deve remover o termo AR (1) e adicionar uma ordem de diferenciação em vez disso. (Isto é exatamente o que aconteceria se você ajustasse um modelo de AR (1) à série UNITS indiferenciada, como observado anteriormente.) Em um modelo AR de ordem mais alta, existe uma raiz unitária na parte AR do modelo se a soma de Os coeficientes AR são exatamente iguais a 1. Neste caso, você deve reduzir a ordem do termo AR em 1 e adicionar uma ordem de diferenciação. Uma série de tempo com uma raiz unitária nos coeficientes AR é não-estacionária - i. e. Ele precisa de uma ordem maior de diferenciação. Regra 9: Se houver uma raiz unitária na parte AR do modelo - isto é. Se a soma dos coeficientes AR é quase exatamente 1 - você deve reduzir o número de termos AR por um e aumentar a ordem de diferenciação por um. Da mesma forma, um modelo MA (1) é dito ter uma raiz unitária se o estimado MA (1) coeficiente é exatamente igual a 1. Quando isso acontece, isso significa que o termo MA (1) é exatamente cancelar uma primeira diferença, em Caso, você deve remover o termo MA (1) e também reduzir a ordem de diferenciação por um. Em um modelo MA de ordem superior, existe uma raiz unitária se a soma dos coeficientes MA for exatamente igual a 1. Regra 10: Se houver uma raiz unitária na parte MA do modelo - isto é. Se a soma dos coeficientes MA é quase exatamente 1 - você deve reduzir o número de termos MA por um e reduzir a ordem de diferenciação por um. Por exemplo, se você ajustar um modelo de suavização exponencial linear (um modelo ARIMA (0,2,2)) quando um modelo de suavização exponencial simples (um modelo ARIMA (0,1,1) teria sido suficiente, você pode achar que A soma dos dois coeficientes MA é quase igual a 1. Ao reduzir a ordem MA e a ordem de diferenciação por um cada, você obtém o modelo SES mais apropriado. Um modelo de previsão com uma raiz unitária nos coeficientes estimados de MA é dito não-reversível. Significando que os resíduos do modelo não podem ser considerados como estimativas do ruído aleatório quottruequot que gerou as séries temporais. Outro sintoma de uma raiz unitária é que as previsões do modelo podem quotblow upquot ou de outra forma se comportam bizarrely. Se o gráfico de séries temporais das previsões de longo prazo do modelo parecer estranho, você deve verificar os coeficientes estimados de seu modelo para a presença de uma raiz unitária. Regra 11: Se as previsões de longo prazo parecerem erráticas ou instáveis, pode haver uma raiz unitária nos coeficientes AR ou MA. Nenhum destes problemas surgiu com os dois modelos aqui ajustados, porque tínhamos o cuidado de começar com ordens plausíveis de diferenças e números apropriados de coeficientes AR e MA estudando os modelos ACF e PACF. Discussões mais detalhadas sobre raízes unitárias e efeitos de cancelamento entre os termos AR e MA podem ser encontradas no folheto da Estrutura Matemática de Modelos ARIMA.
No comments:
Post a Comment