Sunday 19 November 2017

Moving Average Ols


Predicción por técnicas de suavizado Este sitio es una parte de los objetos de aprendizaje de JavaScript E-Labs para la toma de decisiones. Otros JavaScript de esta serie se clasifican en diferentes áreas de aplicaciones en la sección MENÚ de esta página. Una serie de tiempo es una secuencia de observaciones que se ordenan en el tiempo. Inherente en la recolección de datos tomados en el tiempo es una forma de variación al azar. Existen métodos para reducir la cancelación del efecto debido a la variación aleatoria. Las técnicas ampliamente utilizadas son el alisado. Estas técnicas, cuando se aplican correctamente, revelan con mayor claridad las tendencias subyacentes. Introduzca la serie de tiempo en orden de fila en secuencia, comenzando desde la esquina superior izquierda y los parámetros, luego haga clic en el botón Calcular para obtener una previsión de un período de tiempo. Las cajas en blanco no se incluyen en los cálculos, pero los ceros son. Al introducir los datos para pasar de celda a celda en la matriz de datos, utilice la tecla Tab no la flecha o las teclas de entrada. Características de las series temporales, que podrían revelarse al examinar su gráfico. Con los valores pronosticados, y el comportamiento de los residuos, modelado de predicción de condiciones. Promedios móviles: Las medias móviles se encuentran entre las técnicas más populares para el preprocesamiento de series de tiempo. Se utilizan para filtrar el ruido blanco aleatorio de los datos, para hacer la serie temporal más suave o incluso para enfatizar ciertos componentes informativos contenidos en la serie de tiempo. Suavizado exponencial: Este es un esquema muy popular para producir una serie temporal suavizada. Mientras que en Promedios móviles las observaciones anteriores se ponderan igualmente, el suavizado exponencial asigna pesos exponencialmente decrecientes a medida que la observación se hace mayor. En otras palabras, las observaciones recientes reciben un peso relativamente mayor en la predicción que las observaciones más antiguas. Double Exponential Smoothing es mejor para manejar las tendencias. Triple Exponential Smoothing es mejor en el manejo de las tendencias de la parábola. Un promedio móvil ponderado exponencialmente con una constante de suavizado a. Corresponde aproximadamente a una media móvil simple de longitud (es decir, periodo) n, donde a y n están relacionados por: a 2 / (n1) OR n (2 - a) / a. Así, por ejemplo, una media móvil exponencialmente ponderada con una constante de suavizado igual a 0,1 correspondería aproximadamente a un promedio móvil de 19 días. Y una media móvil simple de 40 días correspondería aproximadamente a una media móvil ponderada exponencialmente con una constante de suavizado igual a 0,04878. Holt Lineal Exponencial Suavizado: Suponga que la serie temporal no es estacional pero sí muestra la tendencia. El método Holts estima tanto el nivel actual como la tendencia actual. Observe que la media móvil simple es un caso especial del suavizado exponencial estableciendo el periodo de la media móvil en la parte entera de (2-Alpha) / Alpha. Para la mayoría de los datos empresariales, un parámetro Alpha menor de 0,40 suele ser efectivo. Sin embargo, se puede realizar una búsqueda de cuadrícula del espacio de parámetros, con 0,1 a 0,9, con incrementos de 0,1. Entonces el mejor alfa tiene el menor error absoluto medio (error MA). Cómo comparar varios métodos de suavizado: Aunque existen indicadores numéricos para evaluar la precisión de la técnica de pronóstico, el enfoque más amplio consiste en utilizar la comparación visual de varios pronósticos para evaluar su exactitud y elegir entre los diversos métodos de pronóstico. En este enfoque, se debe trazar (utilizando, por ejemplo, Excel) en el mismo gráfico los valores originales de una variable de serie temporal y los valores predichos de varios métodos de pronóstico diferentes, facilitando así una comparación visual. Es posible que desee utilizar las previsiones pasadas mediante técnicas de suavizado JavaScript para obtener los valores de pronóstico anteriores basados ​​en técnicas de suavizado que utilizan sólo un parámetro. Holt y Winters usan dos y tres parámetros, respectivamente, por lo que no es una tarea fácil seleccionar los valores óptimos, o incluso casi óptimos, por ensayo y errores para los parámetros. El único suavizado exponencial enfatiza la perspectiva de corto alcance que fija el nivel a la última observación y se basa en la condición de que no hay tendencia. La regresión lineal, que se ajusta a una línea de mínimos cuadrados a los datos históricos (o datos históricos transformados), representa el largo alcance, que está condicionado por la tendencia básica. El alineamiento exponencial lineal de Holts captura la información sobre la tendencia reciente. Los parámetros en el modelo de Holts son los niveles-parámetro que deben ser disminuidos cuando la cantidad de variación de los datos es grande, y tendencias-parámetro debe ser aumentado si la dirección de la tendencia reciente es apoyada por la causal algunos factores. Pronóstico a Corto Plazo: Observe que cada JavaScript en esta página proporciona un pronóstico de un paso adelante. Obtener un pronóstico de dos pasos adelante. Simplemente agregue el valor pronosticado al final de los datos de la serie temporal y luego haga clic en el mismo botón Calcular. Puede repetir este proceso durante unas pocas veces para obtener las herramientas de previsión a corto plazo necesarias. Correlación entre pares de columnas de DataFrame Generalmente, todos estos métodos tienen la misma interfaz. Los operadores binarios (por ejemplo, rollingcorr) toman dos Series o DataFrames. De lo contrario, todos aceptan los siguientes argumentos: window. Tamaño de ventana móvil minperiods. Umbral de puntos de datos no nulos a requerir (de lo contrario el resultado es NA) freq. Opcionalmente, especificar una cadena de frecuencia o DateOffset para preconformar los datos. Tenga en cuenta que antes de pandas v0.8.0, se utilizó un argumento de palabra clave timerule en lugar de freq que se refiere a las constantes de regla de tiempo heredado Estas funciones se pueden aplicar a objetos ndarrays o Series: También se pueden aplicar a objetos DataFrame. Esto es realmente simplemente azúcar sintáctico para aplicar el operador de ventana móvil a todas las columnas de DataFrame8217s: La función rollingapply toma un argumento func adicional y realiza cálculos genéricos de balanceo. El argumento func debe ser una sola función que produce un único valor de una entrada ndarray. Supongamos que queremos calcular la desviación absoluta media en una base de rodadura: Los momentos de laminación binarios rollingcov y rollingcorr pueden calcular las estadísticas de las ventanas en movimiento sobre dos Series o cualquier combinación de DataFrame / Series o DataFrame / DataFrame. Aquí está el comportamiento en cada caso: dos Series. Calcular la estadística para el DataFrame / Series de emparejamiento. Calcular las estadísticas de cada columna del DataFrame con la serie pasada, devolviendo así un DataFrame DataFrame / DataFrame. Calcular estadística para emparejar nombres de columna, devolviendo un DataFrame Computing rolling pairwise correlaciones En análisis de datos financieros y otros campos it8217s común para calcular matrices de correlación para una colección de series de tiempo. Más difícil es calcular una matriz de correlación de ventana móvil. Esto se puede hacer usando la función rollingcorrpairwise, que produce un Panel cuyos elementos son las fechas en cuestión: Puede recuperar eficientemente la serie de tiempo de correlaciones entre dos columnas utilizando la indexación ix: Expansión de funciones de momento de ventana Una alternativa común a las estadísticas dinámicas es usar Una ventana de expansión, que produce el valor de la estadística con todos los datos disponibles hasta ese momento. Como estos cálculos son un caso especial de estadísticas dinámicas, se implementan en pandas de tal manera que las dos llamadas siguientes son equivalentes: Al igual que las funciones de balanceo, los siguientes métodos están incluidos en el espacio de nombres de pandas o se pueden encontrar en pandas. stats. moments. Correlación Pairwise de columnas de DataFrame Aparte de no tener un parámetro de ventana, estas funciones tienen las mismas interfaces que su contrapartida de balanceo. Como arriba, los parámetros que aceptan son: minperiodos. El umbral de puntos de datos no nulos que se requieren. El valor predeterminado es el mínimo necesario para calcular la estadística. No se emitirán NaNs una vez que se hayan observado puntos de datos no nulos de los minperiodos. Freq. Opcionalmente, especificar una cadena de frecuencia o DateOffset para preconformar los datos. Tenga en cuenta que antes de pandas v0.8.0, un argumento de palabras clave timerule fue utilizado en lugar de freq que se refiere a las constantes de regla de tiempo heredado La salida de las funciones de rollo y expansión no devuelve un NaN si hay por lo menos minperiods valores no nulos en La ventana actual. Esto difiere de cumsum. Cumprod. Cummax Y cummin. Que devuelven NaN en la salida dondequiera que se encuentre un NaN en la entrada. Una estadística de ventana en expansión será más estable (y menos sensible) que su contrapartida de ventana de balanceo a medida que el tamaño creciente de la ventana disminuye el impacto relativo de un punto de datos individual. Como ejemplo, aquí se muestra la salida de expansión para el conjunto de datos de series temporales anteriores: Funciones de momento ponderadas exponencialmente Un conjunto de funciones relacionadas son versiones ponderadas exponencialmente de muchas de las estadísticas anteriores. Un número de EW (exponencialmente ponderado) las funciones se proporcionan utilizando el método de mezcla. Por ejemplo, donde es el resultado y la entrada, calculamos una media móvil exponencialmente ponderada, ya que puede pasar uno u otro a estas funciones pero no ambas. Span corresponde a lo que comúnmente se llama un 822020-day EW media móvil 8221, por ejemplo. El centro de masa tiene una interpretación más física. Por ejemplo, el intervalo 20 corresponde a com 9.5. A continuación se muestra la lista de funciones disponibles: Los procesos de error de media móvil auto-regresivos (errores ARMA) y otros modelos que implican retrasos de los términos de error se pueden estimar mediante declaraciones FIT y simular o pronosticar utilizando sentencias SOLVE. Los modelos ARMA para el proceso de error se usan con frecuencia para modelos con residuos autocorrelados. La macro AR se puede utilizar para especificar modelos con procesos de error autorregresivo. La macro MA se puede utilizar para especificar modelos con procesos de error de media móvil. Errores auto-regresivos Un modelo con errores autorregresivos de primer orden, AR (1), tiene la forma mientras que un proceso de error AR (2) tiene la forma y así sucesivamente para los procesos de orden superior. Obsérvese que los s son independientes e idénticamente distribuidos y tienen un valor esperado de 0. Un ejemplo de un modelo con un componente AR (2) es y así sucesivamente para procesos de orden superior. Por ejemplo, puede escribir un modelo de regresión lineal simple con MA (2) errores de media móvil, donde MA1 y MA2 son los parámetros de media móvil. Tenga en cuenta que RESID. Y se define automáticamente por PROC MODEL como La función ZLAG debe utilizarse para que los modelos MA trunquen la recursión de los retrasos. Esto asegura que los errores rezagados empiezan a cero en la fase de cebado y no propagan los valores faltantes cuando faltan las variables del período de cebado y aseguran que los errores futuros son cero en lugar de faltar durante la simulación o la predicción. Para obtener más información sobre las funciones de retraso, consulte la sección Lag Logic. El modelo general ARMA (p, q) tiene la siguiente forma Un modelo ARMA (p, q) se puede especificar de la siguiente manera: donde AR i y MA j representan Los parámetros autorregresivos y de media móvil para los diferentes desfases. Puede utilizar cualquier nombre que desee para estas variables, y hay muchas formas equivalentes de que la especificación podría escribirse. Los procesos ARMA vectoriales también se pueden estimar con PROC MODEL. Por ejemplo, un proceso AR (1) de dos variables para los errores de las dos variables endógenas Y1 e Y2 puede especificarse de la siguiente manera: Problemas de Convergencia con Modelos ARMA Los modelos ARMA pueden ser difíciles de estimar. Si las estimaciones de parámetros no están dentro del intervalo apropiado, los términos residuales de modelos de media móvil crecen exponencialmente. Los residuos calculados para observaciones posteriores pueden ser muy grandes o pueden desbordarse. Esto puede ocurrir ya sea porque se utilizaron valores iniciales incorrectos o porque las iteraciones se alejaron de valores razonables. Se debe tener cuidado al elegir los valores iniciales para los parámetros ARMA. Los valores iniciales de 0,001 para los parámetros ARMA normalmente funcionan si el modelo se ajusta bien a los datos y el problema está bien condicionado. Tenga en cuenta que un modelo de MA a menudo puede ser aproximado por un modelo de AR de alto orden, y viceversa. Esto puede dar lugar a una alta colinealidad en los modelos ARMA mixtos, lo que a su vez puede causar un grave mal acondicionamiento en los cálculos y la inestabilidad de los parámetros estimados. Si tiene problemas de convergencia mientras estima un modelo con procesos de error ARMA, intente estimarlos en pasos. En primer lugar, utilice una sentencia FIT para estimar sólo los parámetros estructurales con los parámetros ARMA mantenidos a cero (o a estimaciones previas razonables si están disponibles). A continuación, utilice otra instrucción FIT para estimar sólo los parámetros ARMA, utilizando los valores de los parámetros estructurales de la primera ejecución. Dado que los valores de los parámetros estructurales es probable que estén cerca de sus estimaciones finales, las estimaciones de los parámetros de ARMA podrían ahora converger. Finalmente, use otra instrucción FIT para producir estimaciones simultáneas de todos los parámetros. Dado que los valores iniciales de los parámetros ahora es probable que estén muy cerca de sus estimaciones conjuntas finales, las estimaciones deben converger rápidamente si el modelo es apropiado para los datos. AR Condiciones iniciales Los retornos iniciales de los términos de error de los modelos AR (p) pueden modelarse de diferentes maneras. Los métodos de arranque de errores autorregresivos soportados por los procedimientos SAS / ETS son los siguientes: mínimos cuadrados condicionales (procedimientos ARIMA y MODELO) mínimos cuadrados incondicionales (procedimientos AUTOREG, ARIMA y MODELO) Yule-Walker (Procedimiento AUTOREG solamente) Hildreth-Lu, que elimina las primeras p observaciones (procedimiento MODEL solamente) Consulte el Capítulo 8, Procedimiento AUTOREG, para una explicación y discusión de los méritos de varios métodos de arranque AR (p). Las inicializaciones CLS, ULS, ML y HL pueden realizarse mediante PROC MODEL. Para errores AR (1), estas inicializaciones se pueden producir como se muestra en la Tabla 18.2. Estos métodos son equivalentes en muestras grandes. Tabla 18.2 Inicializaciones realizadas por PROC MODEL: AR (1) ERRORES Los retornos iniciales de los términos de error de los modelos MA (q) también se pueden modelar de diferentes maneras. Los siguientes paradigmas de inicio de error de media móvil son soportados por los procedimientos ARIMA y MODELO: mínimos cuadrados incondicionales mínimos condicionales condicionales El método de mínimos cuadrados condicionales para estimar los términos de error de media móvil no es óptimo porque ignora el problema de inicio. Esto reduce la eficiencia de las estimaciones, aunque siguen siendo imparciales. Los residuos rezagados iniciales, que se extienden antes del inicio de los datos, se supone que son 0, su valor esperado incondicional. Esto introduce una diferencia entre estos residuales y los residuos de mínimos cuadrados generalizados para la covarianza media móvil, que, a diferencia del modelo autorregresivo, persiste a través del conjunto de datos. Por lo general, esta diferencia converge rápidamente a 0, pero para los procesos de media móvil no inversa la convergencia es bastante lenta. Para minimizar este problema, debe tener un montón de datos, y las estimaciones de parámetros del promedio móvil deberían estar dentro del intervalo invertible. Este problema se puede corregir a expensas de escribir un programa más complejo. Las estimaciones de mínimos cuadrados incondicionales para el proceso MA (1) se pueden producir especificando el modelo de la siguiente manera: Los errores de media móvil pueden ser difíciles de estimar. Debe considerar usar una aproximación AR (p) al proceso del promedio móvil. Un proceso de media móvil normalmente puede ser bien aproximado por un proceso autorregresivo si los datos no han sido suavizados o diferenciados. La macro AR La macro AR de SAS genera instrucciones de programación para el MODELO PROC para modelos autorregresivos. La macro AR forma parte del software SAS / ETS y no es necesario configurar ninguna opción especial para utilizar la macro. El proceso autorregresivo puede aplicarse a los errores de la ecuación estructural oa las propias series endógenas. La macro AR puede utilizarse para los siguientes tipos de autorregresión: autorreversión vectorial sin restricciones autorregresión vectorial restringida Autoregresión univariable Para modelar el término de error de una ecuación como un proceso autorregresivo, utilice la siguiente sentencia después de la ecuación: Por ejemplo, supongamos que Y es una Función lineal de X1, X2 y un error AR (2). Escribirías este modelo de la siguiente manera: Las llamadas a AR deben venir después de todas las ecuaciones a las que se aplica el proceso. La invocación de macros anterior, AR (y, 2), produce las declaraciones mostradas en la salida LIST de la Figura 18.58. Figura 18.58 Salida de opción LIST para un modelo AR (2) Las variables prefijadas PRED son variables temporales del programa utilizadas para que los retrasos de los residuos sean los residuos correctos y no los redefinidos por esta ecuación. Tenga en cuenta que esto es equivalente a las declaraciones explícitamente escritas en la sección Formulario General para Modelos ARMA. También puede restringir los parámetros autorregresivos a cero en los retornos seleccionados. Por ejemplo, si desea parámetros autorregresivos en los retornos 1, 12 y 13, puede utilizar las siguientes sentencias: Estas instrucciones generan la salida que se muestra en la Figura 18.59. Figura 18.59 Salida de opción de LIST para un modelo de AR con Lags en 1, 12 y 13 El listado de procedimientos MODEL de la declaración de código de programa compilado como analizado PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y PRED. y - y Hay Variaciones en el método de los mínimos cuadrados condicionales, dependiendo de si las observaciones al comienzo de la serie se utilizan para calentar el proceso AR. Por defecto, el método de mínimos cuadrados condicionales de AR utiliza todas las observaciones y supone ceros para los retardos iniciales de los términos autorregresivos. Utilizando la opción M, puede solicitar que AR utilice el método de mínimos cuadrados incondicionales (ULS) o de máxima verosimilitud (ML). Por ejemplo, las discusiones de estos métodos se proporcionan en la sección AR Condiciones iniciales. Mediante el uso de la opción MCLS n, puede solicitar que las primeras n observaciones se utilicen para calcular las estimaciones de los retrasos autorregresivos iniciales. En este caso, el análisis comienza con la observación n 1. Por ejemplo: Puede utilizar la macro AR para aplicar un modelo autorregresivo a la variable endógena, en lugar del término de error, mediante la opción TYPEV. Por ejemplo, si desea agregar los cinco retrasos anteriores de Y a la ecuación del ejemplo anterior, podría utilizar AR para generar los parámetros y los retrasos mediante las siguientes sentencias: Las sentencias anteriores generan la salida que se muestra en la Figura 18.60. Figura 18.60 Salida de la opción LIST para un modelo AR de Y Este modelo predice Y como una combinación lineal de X1, X2, una intersección y los valores de Y en los cinco períodos más recientes. Autoregresión vectorial sin restricciones Para modelar los términos de error de un conjunto de ecuaciones como un proceso autorregresivo vectorial, utilice la siguiente forma de la macro AR después de las ecuaciones: El valor del nombre del proceso es cualquier nombre que suministre para que AR utilice para crear nombres para el autorregresivo Parámetros. Puede utilizar la macro AR para modelar varios procesos AR diferentes para diferentes conjuntos de ecuaciones utilizando diferentes nombres de proceso para cada conjunto. El nombre del proceso garantiza que los nombres de variable utilizados sean únicos. Utilice un valor de nombre de proceso corto para el proceso si las estimaciones de parámetros se escriben en un conjunto de datos de salida. La macro AR intenta construir nombres de parámetro menores o iguales a ocho caracteres, pero esto está limitado por la longitud de nombreproceso. Que se utiliza como prefijo para los nombres de parámetro AR. El valor de variablelist es la lista de variables endógenas para las ecuaciones. Por ejemplo, supongamos que los errores de las ecuaciones Y1, Y2 e Y3 son generados por un proceso autorregresivo vectorial de segundo orden. Puede utilizar las siguientes sentencias: que generan lo siguiente para Y1 y código similar para Y2 e Y3: Sólo el método de mínimos cuadrados condicionales (MCLS o MCLS n) se puede utilizar para procesos vectoriales. También puede usar el mismo formulario con restricciones de que la matriz de coeficientes sea 0 en retrasos seleccionados. Por ejemplo, las siguientes afirmaciones aplican un proceso vectorial de tercer orden a los errores de ecuación con todos los coeficientes con retraso 2 restringido a 0 y con los coeficientes en los retornos 1 y 3 sin restricciones: Puede modelar las tres series Y1Y3 como un proceso vectorial autorregresivo En las variables en lugar de en los errores mediante la opción TYPEV. Si desea modelar Y1Y3 como una función de valores pasados ​​de Y1Y3 y algunas variables o constantes exógenas, puede usar AR para generar las sentencias para los términos de retraso. Escriba una ecuación para cada variable para la parte no autorregresiva del modelo, y luego llame a AR con la opción TYPEV. Por ejemplo, la parte no autorregresiva del modelo puede ser una función de variables exógenas, o puede ser parámetros de intercepción. Si no hay componentes exógenos en el modelo de autorregresión vectorial, incluyendo no intercepciones, entonces asigne cero a cada una de las variables. Debe haber una asignación a cada una de las variables antes de que AR se llame. Este ejemplo modela el vector Y (Y1 Y2 Y3) como una función lineal solamente de su valor en los dos períodos anteriores y un vector de error de ruido blanco. El modelo tiene 18 (3 3 3 3) parámetros. Sintaxis de la macro AR Hay dos casos de la sintaxis de la macro AR. Cuando no se necesitan restricciones en un proceso AR vectorial, la sintaxis de la macro AR tiene la forma general especifica un prefijo para que AR utilice en la construcción de nombres de variables necesarios para definir el proceso AR. Si el endolist no se especifica, la lista endógena tiene por defecto el nombre. Que debe ser el nombre de la ecuación a la que se va a aplicar el proceso de error AR. El valor de nombre no puede superar los 32 caracteres. Es el orden del proceso AR. Especifica la lista de ecuaciones a las que se va a aplicar el proceso AR. Si se da más de un nombre, se crea un proceso vectorial sin restricciones con los residuos estructurales de todas las ecuaciones incluidas como regresores en cada una de las ecuaciones. Si no se especifica, endolist toma el nombre por defecto. Especifica la lista de rezagos en los que se van a agregar los términos AR. Los coeficientes de los términos a intervalos no listados se ponen a 0. Todos los desfases enumerados deben ser menores o iguales a nlag. Y no debe haber duplicados. Si no se especifica, el laglist se ajusta por defecto a todos los retornos 1 a nlag. Especifica el método de estimación a implementar. Los valores válidos de M son CLS (estimaciones de mínimos cuadrados condicionales), ULS (estimaciones de mínimos cuadrados incondicionales) y ML (estimaciones de máxima verosimilitud). MCLS es el valor predeterminado. Sólo se permite MCLS cuando se especifica más de una ecuación. Los métodos ULS y ML no son compatibles con modelos AR vectoriales por AR. Especifica que el proceso AR debe aplicarse a las variables endógenas en lugar de a los residuos estructurales de las ecuaciones. Autoregresión vectorial restringida Puede controlar qué parámetros se incluyen en el proceso, restringiendo a 0 aquellos parámetros que no incluye. Primero, use AR con la opción DEFER para declarar la lista de variables y definir la dimensión del proceso. A continuación, utilice llamadas AR adicionales para generar términos para las ecuaciones seleccionadas con variables seleccionadas en retrasos seleccionados. Por ejemplo, las ecuaciones de error producidas son las siguientes: Este modelo establece que los errores para Y1 dependen de los errores de Y1 y Y2 (pero no de Y3) en ambos rezagos 1 y 2 y que los errores para Y2 y Y3 dependen de Los errores anteriores para las tres variables, pero sólo con retraso 1. AR Macro Sintaxis para AR Restringido AR Un uso alternativo de AR se permite imponer restricciones en un proceso AR vector llamando a AR varias veces para especificar diferentes términos de AR y rezagos para diferentes Ecuaciones. La primera llamada tiene la forma general especifica un prefijo para que AR utilice en la construcción de nombres de variables necesarias para definir el proceso vector AR. Especifica el orden del proceso AR. Especifica la lista de ecuaciones a las que se va a aplicar el proceso AR. Especifica que AR no es para generar el proceso AR, sino que es esperar la información adicional especificada en las llamadas AR posteriores para el mismo valor de nombre. Las llamadas siguientes tienen la forma general es la misma que en la primera llamada. Especifica la lista de ecuaciones a las que deben aplicarse las especificaciones de esta llamada AR. Sólo los nombres especificados en el valor endolist de la primera llamada para el valor de nombre pueden aparecer en la lista de ecuaciones en eqlist. Especifica la lista de ecuaciones cuyos residuos estructurales rezagados se incluyen como regresores en las ecuaciones de eqlist. Solamente los nombres en el endolist de la primera llamada para el valor del nombre pueden aparecer en varlist. Si no se especifica, varlist por defecto es endolist. Especifica la lista de rezagos en los que se van a agregar los términos AR. Los coeficientes de los términos en retrasos no enumerados se establecen en 0. Todos los retornos enumerados deben ser inferiores o iguales al valor de nlag. Y no debe haber duplicados. Si no se especifica, laglist se ajusta por defecto a todos los retornos 1 a nlag. La macro MA La macro MA SAS genera instrucciones de programación para MODELO PROC para modelos de media móvil. La macro MA forma parte del software SAS / ETS y no se necesitan opciones especiales para utilizar la macro. El proceso de error de media móvil puede aplicarse a los errores de la ecuación estructural. La sintaxis de la macro MA es la misma que la macro AR excepto que no hay ningún argumento TYPE. Cuando está utilizando las macros MA y AR combinadas, la macro MA debe seguir la macro AR. Las siguientes instrucciones SAS / IML producen un proceso de error ARMA (1, (1 3)) y lo guardan en el conjunto de datos MADAT2. Las siguientes instrucciones PROC MODEL se usan para estimar los parámetros de este modelo usando la estructura de error de máxima verosimilitud: Las estimaciones de los parámetros producidos por esta ejecución se muestran en la Figura 18.61. Figura 18.61 Estimaciones de un proceso ARMA (1, (1 3)) Hay dos casos de la sintaxis para la macro MA. Cuando no se necesitan restricciones en un proceso MA vectorial, la sintaxis de la macro MA tiene la forma general especifica un prefijo para que MA utilice en la construcción de nombres de variables necesarias para definir el proceso MA y es el endolist predeterminado. Es el orden del proceso MA. Especifica las ecuaciones a las que se aplica el proceso de MA. Si se da más de un nombre, la estimación CLS se utiliza para el proceso vectorial. Especifica los rezagos en los que se van a agregar los términos MA. Todos los desfases enumerados deben ser inferiores o iguales a nlag. Y no debe haber duplicados. Si no se especifica, el laglist se ajusta por defecto a todos los retornos 1 a nlag. Especifica el método de estimación a implementar. Los valores válidos de M son CLS (estimaciones de mínimos cuadrados condicionales), ULS (estimaciones de mínimos cuadrados incondicionales) y ML (estimaciones de máxima verosimilitud). MCLS es el valor predeterminado. Sólo se permite MCLS cuando se especifica más de una ecuación en el endolist. MA Sintaxis de macros para movimientos restringidos de medios móviles Un uso alternativo de MA permite imponer restricciones a un proceso de MA vectorial llamando a MA varias veces para especificar diferentes términos de MA y rezagos para diferentes ecuaciones. La primera llamada tiene la forma general especifica un prefijo para que MA utilice en la construcción de nombres de variables necesarias para definir el proceso MA vector. Especifica el orden del proceso MA. Especifica la lista de ecuaciones a las que se aplicará el proceso de MA. Especifica que MA no es para generar el proceso MA sino que es esperar a que la información adicional especificada en las llamadas MA más recientes para el mismo valor de nombre. Las llamadas siguientes tienen la forma general es la misma que en la primera llamada. Especifica la lista de ecuaciones a las que se aplicarán las especificaciones de esta llamada MA. Especifica la lista de ecuaciones cuyos residuos estructurales rezagados se incluyen como regresores en las ecuaciones de eqlist. Especifica la lista de rezagos a los que se van a agregar los términos MA. Modelos de media móvil y de suavizado exponencial Como primer paso para superar los modelos medios, los modelos de caminata aleatoria y los modelos de tendencias lineales, los patrones no estacionales y las tendencias pueden extrapolarse usando un movimiento - Modelo medio o suave. La suposición básica detrás de los modelos de promedio y suavizado es que la serie temporal es localmente estacionaria con una media que varía lentamente. Por lo tanto, tomamos un promedio móvil (local) para estimar el valor actual de la media y luego usarlo como pronóstico para el futuro cercano. Esto puede considerarse como un compromiso entre el modelo medio y el modelo aleatorio-paseo-sin-deriva. La misma estrategia se puede utilizar para estimar y extrapolar una tendencia local. Una media móvil se denomina a menudo una versión quotomoldeada de la serie original porque el promedio de corto plazo tiene el efecto de suavizar los golpes en la serie original. Al ajustar el grado de suavizado (el ancho de la media móvil), podemos esperar encontrar algún tipo de equilibrio óptimo entre el rendimiento de la media y los modelos de caminata aleatoria. El tipo más simple de modelo de promediación es el. Promedio móvil simple (igualmente ponderado): El pronóstico para el valor de Y en el tiempo t1 que se hace en el tiempo t es igual al promedio simple de las observaciones m más recientes: (Aquí y en otros lugares usaré el símbolo 8220Y-hat8221 para permanecer en pie Para un pronóstico de la serie de tiempo Y hecho a la fecha más temprana posible posible por un modelo dado). Este promedio se centra en el período t (m1) / 2, lo que implica que la estimación de la media local tiende a quedar rezagada detrás del Valor real de la media local de aproximadamente (m1) / 2 periodos. Por lo tanto, decimos que la edad media de los datos en el promedio móvil simple es (m1) / 2 en relación con el período para el cual se calcula el pronóstico: es la cantidad de tiempo por el cual los pronósticos tenderán a rezagarse detrás de los puntos de inflexión en el datos. Por ejemplo, si está promediando los últimos 5 valores, las previsiones serán de aproximadamente 3 períodos tarde en la respuesta a los puntos de inflexión. Tenga en cuenta que si m1, el modelo de media móvil simple (SMA) es equivalente al modelo de caminata aleatoria (sin crecimiento). Si m es muy grande (comparable a la longitud del período de estimación), el modelo SMA es equivalente al modelo medio. Como con cualquier parámetro de un modelo de pronóstico, es habitual ajustar el valor de k para obtener el mejor valor de los datos, es decir, los errores de predicción más pequeños en promedio. He aquí un ejemplo de una serie que parece presentar fluctuaciones aleatorias alrededor de una media de variación lenta. En primer lugar, vamos a tratar de encajar con un modelo de caminata al azar, que es equivalente a una media móvil simple de un término: El modelo de caminata aleatoria responde muy rápidamente a los cambios en la serie, pero al hacerlo, recoge gran parte del quotnoisequot en el Los datos (las fluctuaciones aleatorias), así como el quotsignalquot (la media local). Si en lugar de eso intentamos una media móvil simple de 5 términos, obtendremos un conjunto de previsiones más suaves: El promedio móvil simple a 5 terminos produce errores significativamente menores que el modelo de caminata aleatoria en este caso. La edad promedio de los datos de esta previsión es de 3 ((51) / 2), de modo que tiende a quedar a la zaga de los puntos de inflexión en aproximadamente tres períodos. (Por ejemplo, parece haber ocurrido una recesión en el período 21, pero las previsiones no giran hasta varios periodos más tarde). Obsérvese que los pronósticos a largo plazo del modelo SMA son una línea recta horizontal, al igual que en la caminata aleatoria modelo. Por lo tanto, el modelo SMA asume que no hay tendencia en los datos. Sin embargo, mientras que las previsiones del modelo de caminata aleatoria son simplemente iguales al último valor observado, las previsiones del modelo SMA son iguales a un promedio ponderado de valores recientes. Los límites de confianza calculados por Statgraphics para los pronósticos a largo plazo de la media móvil simple no se amplían a medida que aumenta el horizonte de pronóstico. Esto obviamente no es correcto Desafortunadamente, no hay una teoría estadística subyacente que nos diga cómo los intervalos de confianza deberían ampliarse para este modelo. Sin embargo, no es demasiado difícil calcular estimaciones empíricas de los límites de confianza para las previsiones a más largo plazo. Por ejemplo, podría configurar una hoja de cálculo en la que el modelo SMA se utilizaría para pronosticar dos pasos adelante, tres pasos adelante, etc. dentro de la muestra de datos históricos. A continuación, podría calcular las desviaciones estándar de los errores en cada horizonte de pronóstico y, a continuación, construir intervalos de confianza para pronósticos a más largo plazo sumando y restando múltiplos de la desviación estándar apropiada. Si intentamos una media móvil sencilla de 9 términos, obtendremos pronósticos aún más suaves y más de un efecto rezagado: La edad promedio es ahora de 5 períodos ((91) / 2). Si tomamos una media móvil de 19 términos, la edad promedio aumenta a 10: Obsérvese que, de hecho, las previsiones están ahora rezagadas detrás de los puntos de inflexión en aproximadamente 10 períodos. Qué cantidad de suavizado es la mejor para esta serie Aquí hay una tabla que compara sus estadísticas de error, incluyendo también un promedio de 3 términos: El modelo C, la media móvil de 5 términos, produce el valor más bajo de RMSE por un pequeño margen sobre los 3 A término y 9 promedios, y sus otras estadísticas son casi idénticas. Por lo tanto, entre los modelos con estadísticas de error muy similares, podemos elegir si preferiríamos un poco más de capacidad de respuesta o un poco más de suavidad en las previsiones. El modelo de media móvil simple descrito anteriormente tiene la propiedad indeseable de que trata las últimas k observaciones por igual e ignora por completo todas las observaciones precedentes. (Volver al principio de la página.) Browns Simple Exponential Smoothing Intuitivamente, los datos pasados ​​deben ser descontados de una manera más gradual - por ejemplo, la observación más reciente debería tener un poco más de peso que la segunda más reciente, y la segunda más reciente debería tener un poco más de peso que la tercera más reciente, y pronto. El modelo de suavizado exponencial simple (SES) lo logra. Sea 945 una constante quotsmoothingquot (un número entre 0 y 1). Una forma de escribir el modelo es definir una serie L que represente el nivel actual (es decir, el valor medio local) de la serie, tal como se estimó a partir de los datos hasta el presente. El valor de L en el tiempo t se calcula recursivamente a partir de su propio valor anterior como este: Así, el valor suavizado actual es una interpolación entre el valor suavizado anterior y la observación actual, donde 945 controla la proximidad del valor interpolado al valor más reciente observación. El pronóstico para el siguiente período es simplemente el valor suavizado actual: Equivalentemente, podemos expresar el próximo pronóstico directamente en términos de previsiones anteriores y observaciones previas, en cualquiera de las siguientes versiones equivalentes. En la primera versión, la previsión es una interpolación entre la previsión anterior y la observación anterior: En la segunda versión, la siguiente previsión se obtiene ajustando la previsión anterior en la dirección del error anterior por una cantidad fraccionada de 945. es el error hecho en Tiempo t En la tercera versión, el pronóstico es una media móvil exponencialmente ponderada (es decir, descontada) con el factor de descuento 1-945: La versión de interpolación de la fórmula de pronóstico es la más simple de usar si está implementando el modelo en una hoja de cálculo: se ajusta en un Célula única y contiene referencias de celdas que apuntan a la previsión anterior, la observación anterior y la celda donde se almacena el valor de 945. Tenga en cuenta que si 945 1, el modelo SES es equivalente a un modelo de caminata aleatoria (sin crecimiento). Si 945 0, el modelo SES es equivalente al modelo medio, asumiendo que el primer valor suavizado se establece igual a la media. La edad promedio de los datos en el pronóstico de suavización exponencial simple es de 1/945 en relación con el período para el cual se calcula la predicción. (Esto no se supone que sea obvio, pero se puede demostrar fácilmente mediante la evaluación de una serie infinita.) Por lo tanto, el pronóstico promedio móvil simple tiende a quedar rezagado detrás de puntos de inflexión en aproximadamente 1/945 períodos. Por ejemplo, cuando 945 0.5 el retraso es 2 períodos cuando 945 0.2 el retraso es 5 períodos cuando 945 0.1 el retraso es 10 períodos, y así sucesivamente. Para una edad promedio dada (es decir, la cantidad de retraso), el simple suavizado exponencial (SES) pronosticado es algo superior a la predicción del promedio móvil simple (SMA), ya que coloca relativamente más peso en la observación más reciente - ie. Es un poco más sensible a los cambios ocurridos en el pasado reciente. Por ejemplo, un modelo SMA con 9 términos y un modelo SES con 945 0.2 tienen una edad promedio de 5 para los datos de sus pronósticos, pero el modelo SES pone más peso en los 3 últimos valores que el modelo SMA y en el modelo SMA. Otra ventaja importante del modelo SES sobre el modelo SMA es que el modelo SES utiliza un parámetro de suavizado que es continuamente variable, por lo que se puede optimizar fácilmente Utilizando un algoritmo quotsolverquot para minimizar el error cuadrático medio. El valor óptimo de 945 en el modelo SES de esta serie resulta ser 0.2961, como se muestra aquí: La edad promedio de los datos de esta previsión es de 1 / 0,2961 3,4 períodos, que es similar a la de un movimiento simple de 6 términos promedio. Los pronósticos a largo plazo del modelo SES son una línea recta horizontal. Como en el modelo SMA y el modelo de caminata aleatoria sin crecimiento. Sin embargo, tenga en cuenta que los intervalos de confianza calculados por Statgraphics ahora divergen de manera razonable y que son sustancialmente más estrechos que los intervalos de confianza para el modelo de caminata aleatoria. El modelo SES asume que la serie es algo más predecible que el modelo de caminata aleatoria. Un modelo SES es en realidad un caso especial de un modelo ARIMA. Por lo que la teoría estadística de los modelos ARIMA proporciona una base sólida para el cálculo de los intervalos de confianza para el modelo SES. En particular, un modelo SES es un modelo ARIMA con una diferencia no estacional, un término MA (1) y ningún término constante. Conocido también como modelo quotARIMA (0,1,1) sin constantequot. El coeficiente MA (1) en el modelo ARIMA corresponde a la cantidad 1-945 en el modelo SES. Por ejemplo, si se ajusta un modelo ARIMA (0,1,1) sin constante a la serie analizada aquí, el coeficiente MA estimado (1) resulta ser 0.7029, que es casi exactamente un menos 0.2961. Es posible añadir la suposición de una tendencia lineal constante no nula a un modelo SES. Para ello, basta con especificar un modelo ARIMA con una diferencia no estacional y un término MA (1) con una constante, es decir, un modelo ARIMA (0,1,1) con constante. Las previsiones a largo plazo tendrán entonces una tendencia que es igual a la tendencia media observada durante todo el período de estimación. No puede hacerlo junto con el ajuste estacional, ya que las opciones de ajuste estacional están deshabilitadas cuando el tipo de modelo está ajustado a ARIMA. Sin embargo, puede agregar una tendencia exponencial a largo plazo constante a un modelo de suavización exponencial simple (con o sin ajuste estacional) utilizando la opción de ajuste de inflación en el procedimiento de previsión. La tasa apropiada de inflación (crecimiento porcentual) por período puede estimarse como el coeficiente de pendiente en un modelo de tendencia lineal ajustado a los datos en conjunción con una transformación de logaritmo natural o puede basarse en otra información independiente sobre las perspectivas de crecimiento a largo plazo . (Regreso al inicio de la página.) Browns Linear (es decir, doble) Suavizado exponencial Los modelos SMA y SES suponen que no hay ninguna tendencia de ningún tipo en los datos (que normalmente está bien o al menos no es demasiado malo para 1- Avance anticipado cuando los datos son relativamente ruidosos), y se pueden modificar para incorporar una tendencia lineal constante como se muestra arriba. ¿Qué pasa con las tendencias a corto plazo? Si una serie muestra una tasa de crecimiento variable o un patrón cíclico que se destaca claramente contra el ruido, y si hay una necesidad de pronosticar más de un período, la estimación de una tendencia local también podría ser un problema. El modelo de suavizado exponencial simple puede generalizarse para obtener un modelo lineal de suavizado exponencial (LES) que calcula las estimaciones locales de nivel y tendencia. El modelo de tendencia más simple que varía en función del tiempo es el modelo lineal de suavizado exponencial de Browns, el cual utiliza dos series suavizadas diferentes que están centradas en diferentes momentos del tiempo. La fórmula de predicción se basa en una extrapolación de una línea a través de los dos centros. (Una versión más sofisticada de este modelo, Holt8217s, se discute a continuación). La forma algebraica del modelo de suavizado exponencial lineal de Brown8217s, como la del modelo de suavizado exponencial simple, puede expresarse en varias formas diferentes pero equivalentes. La forma estándar de este modelo se expresa usualmente de la siguiente manera: Sea S la serie de suavizado simple obtenida aplicando el suavizado exponencial simple a la serie Y. Es decir, el valor de S en el periodo t está dado por: (Recuérdese que, Exponencial, esto sería la previsión para Y en el período t1). Entonces, vamos a Squot denotar la serie doblemente suavizada obtenida aplicando el suavizado exponencial simple (usando el mismo 945) a la serie S: Finalmente, la previsión para Y tk. Para cualquier kgt1, viene dado por: Esto produce e 1 0 (es decir, trucar un poco y dejar que el primer pronóstico sea igual a la primera observación real), y e 2 Y 2 8211 Y 1. Después de lo cual las previsiones se generan usando la ecuación anterior. Esto produce los mismos valores ajustados que la fórmula basada en S y S si estos últimos se iniciaron usando S 1 S 1 Y 1. Esta versión del modelo se utiliza en la página siguiente que ilustra una combinación de suavizado exponencial con ajuste estacional. Holt8217s Linear Exponential Smoothing Brown8217s El modelo LES calcula las estimaciones locales de nivel y tendencia al suavizar los datos recientes, pero el hecho de que lo haga con un solo parámetro de suavizado impone una restricción en los patrones de datos que puede encajar: el nivel y la tendencia No se les permite variar a tasas independientes. El modelo LES de Holt8217s aborda este problema incluyendo dos constantes de suavizado, una para el nivel y otra para la tendencia. En cualquier momento t, como en el modelo Brown8217s, existe una estimación L t del nivel local y una estimación T t de la tendencia local. Aquí se calculan recursivamente a partir del valor de Y observado en el instante t y de las estimaciones previas del nivel y de la tendencia por dos ecuaciones que les aplican el suavizado exponencial separadamente. Si el nivel estimado y la tendencia en el tiempo t-1 son L t82091 y T t-1. Respectivamente, entonces la previsión de Y tshy que habría sido hecha en el tiempo t-1 es igual a L t-1 T t-1. Cuando se observa el valor real, la estimación actualizada del nivel se calcula recursivamente interpolando entre Y tshy y su pronóstico, L t-1 T t-1, utilizando pesos de 945 y 1-945. El cambio en el nivel estimado, Es decir L t 8209 L t82091. Puede interpretarse como una medida ruidosa de la tendencia en el tiempo t. La estimación actualizada de la tendencia se calcula recursivamente mediante la interpolación entre L t 8209 L t82091 y la estimación anterior de la tendencia, T t-1. Utilizando los pesos de 946 y 1-946: La interpretación de la constante de suavizado de tendencia 946 es análoga a la de la constante de suavizado de nivel 945. Los modelos con valores pequeños de 946 asumen que la tendencia cambia muy lentamente con el tiempo, mientras que los modelos con 946 más grandes suponen que está cambiando más rápidamente. Un modelo con una gran 946 cree que el futuro lejano es muy incierto, porque los errores en la estimación de la tendencia son muy importantes cuando se pronostica más de un período por delante. Las constantes de suavizado 945 y 946 se pueden estimar de la manera habitual minimizando el error cuadrático medio de las previsiones de 1 paso adelante. Cuando esto se hace en Statgraphics, las estimaciones resultan ser 945 0,3048 y 946 0,008. El valor muy pequeño de 946 significa que el modelo supone muy poco cambio en la tendencia de un período al siguiente, por lo que básicamente este modelo está tratando de estimar una tendencia a largo plazo. Por analogía con la noción de la edad media de los datos que se utilizan para estimar el nivel local de la serie, la edad media de los datos que se utilizan para estimar la tendencia local es proporcional a 1/946, aunque no exactamente igual a eso. En este caso, resulta ser 1 / 0.006 125. Esto no es un número muy preciso en la medida en que la precisión de la estimación de 946 es realmente de 3 decimales, pero es del mismo orden general de magnitud que el tamaño de la muestra de 100 , Por lo que este modelo está promediando bastante historia en la estimación de la tendencia. La gráfica de pronóstico siguiente muestra que el modelo LES calcula una tendencia local ligeramente mayor al final de la serie que la tendencia constante estimada en el modelo SEStrend. Además, el valor estimado de 945 es casi idéntico al obtenido ajustando el modelo SES con o sin tendencia, por lo que este es casi el mismo modelo. Ahora, ¿se ven como pronósticos razonables para un modelo que se supone que está estimando una tendencia local? Si observa esta gráfica, parece que la tendencia local se ha vuelto hacia abajo al final de la serie. Lo que ha ocurrido Los parámetros de este modelo Se han estimado minimizando el error al cuadrado de las previsiones de un paso adelante, y no las previsiones a largo plazo, en cuyo caso la tendencia no hace mucha diferencia. Si todo lo que usted está mirando son errores de un paso adelante, no está viendo la imagen más grande de las tendencias sobre (digamos) 10 o 20 períodos. Con el fin de obtener este modelo más en sintonía con la extrapolación de nuestro ojo de los datos, podemos ajustar manualmente la tendencia de suavizado constante de modo que utiliza una base más corta para la estimación de tendencia. Por ejemplo, si elegimos establecer 946 0.1, la edad promedio de los datos utilizados para estimar la tendencia local es de 10 períodos, lo que significa que estamos promediando la tendencia en los últimos 20 períodos aproximadamente. Here8217s lo que el pronóstico gráfico parece si fijamos 946 0.1 mientras que mantener 945 0.3. Esto parece intuitivamente razonable para esta serie, aunque probablemente sea peligroso extrapolar esta tendencia en más de 10 periodos en el futuro. ¿Qué pasa con las estadísticas de errores? Aquí hay una comparación de modelos para los dos modelos mostrados arriba, así como tres modelos SES. El valor óptimo de 945 para el modelo SES es de aproximadamente 0,3, pero se obtienen resultados similares (con un poco más o menos de capacidad de respuesta, respectivamente) con 0,5 y 0,2. (A) Holts lineal exp. Alisamiento con alfa 0.3048 y beta 0.008 (B) Holts linear exp. Alisamiento con alfa 0.3 y beta 0.1 (C) Alisamiento exponencial simple con alfa 0.5 (D) Alisamiento exponencial simple con alfa 0.3 (E) Suavizado exponencial simple con alfa 0.2 Sus estadísticas son casi idénticas, por lo que realmente no podemos hacer la elección sobre la base De errores de pronóstico de un paso adelante en la muestra de datos. Tenemos que recurrir a otras consideraciones. Si creemos firmemente que tiene sentido basar la estimación de tendencia actual en lo que ha ocurrido durante los últimos 20 períodos, podemos hacer un caso para el modelo LES con 945 0.3 y 946 0.1. Si queremos ser agnósticos acerca de si hay una tendencia local, entonces uno de los modelos SES podría ser más fácil de explicar y también daría más pronósticos intermedios para los próximos 5 o 10 períodos. (Volver al principio de la página.) Qué tipo de tendencia-extrapolación es la mejor: horizontal o lineal La evidencia empírica sugiere que, si los datos ya han sido ajustados (si es necesario) para la inflación, puede ser imprudente extrapolar lineal a corto plazo Tendencias en el futuro. Las tendencias evidentes hoy en día pueden desacelerarse en el futuro debido a diversas causas, como la obsolescencia de los productos, el aumento de la competencia y las caídas o repuntes cíclicos en una industria. Por esta razón, el suavizado exponencial simple a menudo realiza mejor fuera de la muestra de lo que de otra manera se podría esperar, a pesar de su extrapolación de tendencia horizontal de extracción horizontal. Las modificaciones de la tendencia amortiguada del modelo de suavizado exponencial lineal también se usan a menudo en la práctica para introducir una nota de conservadurismo en sus proyecciones de tendencia. El modelo LES con tendencia amortiguada se puede implementar como un caso especial de un modelo ARIMA, en particular, un modelo ARIMA (1,1,2). Es posible calcular intervalos de confianza en torno a los pronósticos a largo plazo producidos por modelos de suavizado exponencial, al considerarlos como casos especiales de modelos ARIMA. El ancho de los intervalos de confianza depende de (i) el error RMS del modelo, (ii) el tipo de suavizado (simple o lineal) (iii) el valor (S) de la (s) constante (s) de suavizado y (iv) el número de periodos por delante que está pronosticando. En general, los intervalos se extienden más rápidamente a medida que el 945 se hace más grande en el modelo SES y se extienden mucho más rápido cuando se usa lineal en lugar de simple suavizado. Este tema se discute más adelante en la sección de modelos de ARIMA de las notas. (Regresar al inicio de la página.) Menú principal Moving Average Time Series 8212 Baseball Usualmente utilizo estadísticas para describir el béisbol, pero este post va a usar el béisbol para ilustrar las estadísticas. Habrá un poco de matemáticas. Si eso te asusta, has sido debidamente advertido. También he recogido la salida de SAS para cada modelo para la referencia técnica. Una serie de tiempo son datos que se han recogido en un intervalo regular en el tiempo. Esto es bastante intuitivo cuando se les da la definición, pero son diferentes de los datos transversales. Que es el tipo de conjunto de datos que la mayoría de la gente está familiarizada. El precio de cierre de una acción es una serie de tiempo, porque es una medida a las 4PM cada M-F. Los datos transversales buscarían qué tipo de acciones ganó más de un cuarto en su cartera. Esta es una medida (cambio trimestral) hecha para muchas existencias diferentes. No todos los conjuntos de datos encajan perfectamente en una categoría y el objetivo de análisis es diferente para cada instrumento. El objetivo del análisis de series de tiempo univariadas (TSA) es predecir una variable sólo usando observaciones pasadas de esa variable. En el caso del ejemplo del mercado de valores, TSA busca proyectar lo que el precio de cierre para el día siguiente utilizará datos del período de tiempo especificado. Sin embargo, las finanzas son aburridas y yo quería un conjunto de datos que puedo extraer un poco de visión, por lo que estarán buscando ponches de MLB (K) por año y jonrones (HR) por año como los conjuntos de datos. ¿Cómo se ve una serie de tiempo? Si se desplaza hacia abajo o busca un gráfico del mercado de valores, verá cómo es una serie de tiempo. It8217s desordenado. He creado este conjunto de datos, por lo que puedo describir este proceso con precisión. Un proceso de media móvil de primer orden con un coeficiente lag1 de 0.9 y una media en serie de 0. I8217ve también incluyó la tendencia de regresión lineal normal (OLS) para la serie temporal que muestra que tiene una tendencia ligeramente positiva. Esta es una típica técnica analítica para mostrar que una serie de tiempo se está moviendo. En este caso la tendencia no es significativa en estos 50 puntos de datos. No hay tendencia, y la media es cero. El modelo que corresponde al gráfico anterior tiene la siguiente forma general: donde es la variable objetivo dependiente del tiempo, es la media de toda la serie de datos, es el coeficiente de regresión y es un choque dependiente del tiempo del sistema. Los términos describen el período de tiempo desde el cual la variable comienza con el más actual,. Antes de describir el modelo anterior, es importante entender completamente lo que representa. Este es un término de shock que puede abarcar un montón de cosas diferentes. Si se considera algo así como los ingresos trimestrales, los factores que influyen en el período de shock son el desempleo, el crecimiento económico, campañas de marketing, etc. Estamos buscando los datos en ausencia de este conocimiento, y como estamos en la oscuridad, las causas de los shocks Aparecen al azar. Los términos deben ser normalmente distribuidos y no autocorrelacionados. El valor esperado debe ser cero,. El valor esperado es otra manera de describir el promedio de todos los términos. Aquí hay una gran manera de pensar sobre el proceso de MA. Piense en un gasto mensual personal simplificado en el que tenía un salario constante y una cuenta de ahorro modesta. Los choques que se incluirían en el plazo serían gastos inesperados. El gasto inesperado podría influir en el siguiente período de tiempo si tuviera que sumergirse en ahorros. Así que un gasto inesperado alto en enero afectaría el gasto en febrero, porque you8217d tienen el pago de su tarjeta de crédito o poner el dinero de nuevo en los ahorros. Hay muchos más detalles a la comprensión de series temporales tales como autocorrelación. Ojalá escribiera un post separado sobre eso en el futuro. Observemos algunos datos reales. Afortunadamente, tengo cada juego de MLB en una base de datos gracias a retrosheet. org, por lo que vamos a ver algunas series de tiempo desde allí específicamente, HR y Ks por año. Conceptualmente para este modelado rudimentario, un proceso de MA tiene sentido. Un choque del año anterior como la expansión, los esteroides o el sesgo de selección se trasladaría de año en año. Mirando el gráfico de la serie de tiempo abajo, no se comporta como la serie de tiempo anterior que estaba centrada alrededor de cero. Esta serie de tiempo se considera no estacionaria, lo que significa que existe una tendencia y que la tendencia cambia con el tiempo. El número de recursos humanos por temporada aumentó con el tiempo hasta alrededor de 2001, cuando se estabilizó y comenzó a disminuir. Hay una tendencia hasta el 2001, una tendencia después, y son la misma. Para evitar esto en lugar de modelar los valores reales, las diferencias entre dos años de HR serán modelo. Una diferencia () es simplemente. O la diferencia en HRs en 2017 y 2012, que sería -279 HRs. La línea verde son los HR reales cada año. Las líneas coloreadas de 8216cantaloupe8217 son el intervalo de confianza 50 (IC) del pronóstico. La línea roja son los valores pronosticados. Utilicé 50 CI para mostrar desviaciones probables, no desviaciones estadísticamente significativas. El modelo de media móvil diferenciada ARIMA (0,1,1) toma la forma siguiente: La sustitución del coeficiente estimado por y un pronóstico se puede hacer con la siguiente ecuación: La última ecuación se utiliza para generar la línea de pronóstico y finalmente las líneas de 50 CI . La interpretación de esta ecuación es que la mitad de la conmoción del período de tiempo anterior todavía tiene un efecto en el cambio al período actual. El pronóstico predice que los home runs realmente aumentará en los últimos años y no continuará el descenso. Mirando hacia atrás el modelo se puede utilizar para identificar algunos años de interés, y marcó los de la gráfica. La expansión probablemente tiene el mayor impacto en el número de recursos humanos, ya que diluye el grupo de talentos y aumenta el número total de juegos por temporada. Si quería medir el impacto del entrenamiento o los esteroides en los HR, you8217d quería usar una serie de tiempo HR / juego, vea abajo en lugar de HRs totales. Éste es el total de recursos humanos entre ambos equipos. El HR / Gm es la serie de tiempo que un analista de béisbol querría utilizar, porque controla para los juegos adicionales de la expansión, por lo que las tendencias también son menos pronunciadas. Esto sigue siendo una serie temporal no estacionaria, por lo que debe ser la diferencia como el modelo anterior y se puede describir por la siguiente ecuación: Todavía los mayores choques son los años de expansión, que tienden a tener un poco de un efecto persistente antes de regresar . 1987 ahora se presenta como un outlier realmente enigmático. No hubo expansión ese año. La mejor explicación es que hubo un cambio de zona de huelga, pero solo puedo encontrarlo en un artículo. El arrebato de inicio de casa de finales de los 90 y principios de 2000 sucede con el 8216steroid era8217 y dos períodos cercanos de la expansión. Este post isn8217t interesado en analizar el efecto de esteroides en MLB, sólo que 8282s 8282sock8217 se mezcla con el equipo de expansión 8216shock8217. También hay que señalar HRs / Gm haven8217t volvió a los niveles de expansión antes de 1993. Mirando lo contrario de un jonrón, la huelga por año tiene una tendencia que es mucho más constante, y está aumentando. El gráfico que se muestra arriba también se diferencia del proceso de media móvil de primer orden, ARIMA (0,1,1). Su ecuación se ve muy similar a las dos últimas, así que no lo escribiré. Los parámetros se pueden encontrar en el apéndice de salida SAS. Tengo para esta página. El pronóstico prevé un aumento definitivo de las salidas de huelgas totales en los próximos años. Al igual que la HR por año serie de tiempo, la serie de tiempo de Ks se analizan mejor mirando a la K / Gm. La serie de tiempo de K / Gm resulta ser un modelo diferente que los primeros tres modelos, porque es una caminata aleatoria alrededor de una tendencia lineal. Este proceso tiene shocks al azar alrededor de una tendencia positiva sin 8216memory8217 de los choques pasados ​​como los otros tres modelos tenían. Este modelo para K / Gm, ARIMA (0,1,0), se ve un poco diferente de los modelos ARIMA (0,1,1) visto anteriormente, ya que no hay plazo aplazado. El modelo ARIMA (0,1,0) está dado por la siguiente ecuación: y la ecuación de pronóstico con los parámetros en ella sería: Esto indica que el K / Gm aumentará en 0.11637 cada año en promedio. Obviamente, ya que sólo hay 54 outs en un juego de béisbol esta tendencia puede continuar para siempre. A partir de agosto de 2017, el K / Gm actual es de 15,4 y se prevé que sea 15.2497, que está dentro de los 50 CI del pronóstico. Si bien estos modelos pueden hacer predicciones sobre el béisbol, no consideraría esto como los mejores o incluso buenos modelos de pronóstico, ya que podríamos incorporar otras variables o mejorar la granularidad del pronóstico a los jugadores individuales. También hay mucho valor en decir que habrá más huelgas en 2017 que 2017. Sin embargo, este ejemplo es un buen ejercicio académico para entender cómo funcionan las series cronológicas univariadas. Y esperemos que proporcione una idea de ambas series de tiempo y un poco sobre las tendencias en el béisbol. Artículos relacionados

No comments:

Post a Comment