Seminario de Estudiantes de Doctorado en Estadística

El propósito de estos seminarios es conocer los proyectos de investigación en los que han participado los y las estudiantes del programa de Doctorado en Estadística en la modalidad de ponencia. Se extiende la invitación a participar a toda la comunidad UC.


2024-06-04
16:10hrs.
Fabian Gomez. PUC
Análisis de datos funcionales de los niveles de MP2.5 en Santiago, Chile: Inviernos 2018-2022
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

El material particulado fino 2.5 (PM 2.5) es un tipo de partícula nociva para la salud, y su monitoreo tiene como objetivo establecer la calidad del aire que puede tener una región de un país. En este trabajo, se utilizan herramientas de análisis de datos funcionales para analizar la concentración de PM 2,5 durante los periodos invernales del 2018 al 2022 en la estación de monitoreo Parque O'Higgins. El enfoque consiste en un análisis de varianza funcional para estudiar si existen diferencias en las curvas medias de cada invierno, buscando patrones de comportamiento entre los años, en contraste con el Plan de descontaminación actual en Santiago de Chile.

2024-05-07
16:10hrs.
Bryan Andrés Tobar Torres. PUC
Gráficos de control para la detección de fallas en sistemas HVAC, empleando técnicas de detección de anomalías desde el punto de vista del análisis supervisado
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

A partir de los datos obtenidos del monitoreo de sistemas de aire acondicionado, se emplea el algoritmos basados en la densidad de datos para  establecer potenciales fallas en el sistema con la finalidad de poder realizar alertas tempranas en los planes de mantenimiento.

2024-04-23
16:10hrs.
Nixon Jerez Lillo. PUC
Power-law Regression Model with Long-term Survival, Change Point Detection, and Regularization
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

Kidney cancer, a potentially life-threatening malignancy affecting the kidneys, demands early detection and proactive intervention to enhance prognosis and survival. Advancements in medical and health sciences and the emergence of novel treatments are expected to lead to a favorable response in a subset of patients. This, in turn, is anticipated to enhance overall survival and disease-free survival rates. Cure fraction models have become essential for estimating the proportion of individuals considered cured, free from adverse events. This article presents a novel piecewise power-law cure fraction model with a piecewise decreasing hazard function, deviating from the traditional piecewise constant hazard assumption. Through the analysis of real medical data, we evaluate various factors to explain the survival of individuals. Consistently positive outcomes are observed, affirming the significant potential of our approach. Furthermore, we employ a local influence analysis to detect potentially influential individuals and perform a post-deletion analysis to analyze their impact on our inferences.

2024-04-02
16:10hrs.
Daniel Saavedra. PUC
Generate Censored Samples: Controlling the desired censorship percentage
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

Generating censored random samples while controlling the desired percentage of censorship is a critical task when assessing the performance of our model in corresponding simulation studies. In this presentation, we will explore an approach to aboard this challenge, particularly when dealing with random censorship. This method is implemented in the recently available 'rcens' package on CRAN, which also offers functionalities to control the censorship percentage in generated samples with different types of censorship (Types I, II, and III), providing researchers and professionals with a straightforward tool to simulate datasets according to desired distributional needs. Lastly, we will discuss a potential scheme for generating interval censorship also implemented in 'rcens'.

2023-12-07
16:00hrs.
Fabio Paredes Peñaloza. PUC
Competing Risks in Survival Analysis: More the Rule Than the Exception
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

In survival studies, understanding the probability (risk) or occurrence rate of a specific event (hazard) over a set period is often sought. However, in a realistic scenario, multiple competing events can occur. If competing risks are not considered, the risk estimates for a particular event might be biased. The effect of a covariate on the hazard function for a specific cause can be estimated using Cox's proportional hazards model, censoring competing events. Yet, the interpretation in the cumulative incidence function (CIF) is limited, as in the scenario of competing risks, there is no one-to-one relationship between the hazard function and the CIF. The Fine-Gray model enables understanding the effect of a covariate on the CIF. However, an interpretation error often occurs by equating the interpretation of the subdistribution hazard ratio (SHR) and the commonly used hazard ratio (HR). This study aims to clarify the concepts used under competing risks, which can guide us to an appropriate interpretation, and apply them in research on cancer relapse, a scenario where this methodology is particularly interesting.

2023-11-23
16:00hrs.
Francisco Segovia Godoy. PUC
Bayesian model selection for regression models
SALA MULTIUSOS (1er piso), FELIPE VILLANUEVA
Abstract:

Regression analysis aims to explore the relationship between a response variable and predictors. A key aspect of regression analysis is model selection, which allows the researcher to decide which predictors are relevant, considering a parsimony criterion. A standard frequentist strategy is to explore the model space using, for instance, a Stepwise strategy based on some goodness of fit criteria. On the other hand, a popular Bayesian strategy is the spike-and-slab methodology, which assigns a specific prior to predictor coefficients by defining a latent binary vector that will indicate which predictors are relevant. Such a strategy includes a prior over the binary vector to penalize complex models. In this work, we developed a general Bayesian strategy for model selection in a broad range of regression models, using the spike-and-slab strategy and a data augmentation technique. We show that if the likelihood function follows certain conditions, the consistency of the Bayes Factor is guaranteed alongside the availability of closed-form expressions for the posterior distribution. We present regression models based on different choices for the response distribution, providing the necessary details for each model to be implemented alongside a Monte Carlo simulation study. Applications with health data are also discussed.

2023-10-19
16:00 hrshrs.
Ingrid Guevara Romero. PUC
Selección de variables en modelos de regresión para datos circulares utilizando la distribución normal proyectada.
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

A través de los años los datos circulares han tomado relevancia en distintos ámbitos. Estos surgen de varias maneras, por ejemplo, a través de instrumentos de medición como relojes.  No obstante, dada su naturaleza, no se pueden utilizar métodos estándar de medición univariados o multivariados. Por lo que se plantean múltiples desafíos debido a que es necesario definir un modelo estadístico sobre un espacio no-euclidiano, como lo es el círculo o la esfera. 

Dado que la literatura sobre este tema es limitada, en esta ocasión se ha planteado como objetivo desarrollar metodologías de selección de variables mediante un enfoque bayesiano paramétrico en modelos de regresión que involucran datos circulares, asumiendo una distribución normal proyectada. Para ello, se imponen prioris de mezcla en los coeficientes de regresión conocidas como spike-and-slab. Los aspectos computacionales del estudio incluyen la implementación de métodos MCMC para generar muestras de las distribuciones posteriori llevar a cabo inferencias sobre el modelo. Estos procedimientos se ilustran mediante el uso de conjuntos de datos simulados y conjuntos de datos reales.

2023-09-28
16:00 hrshrs.
Nixon Jerez Lillo. PUC
A unification approach in semi-parametric piecewise models
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

Piecewise models are valuable tools for enhancing pattern adjustments in statistical analysis, offering superior fit compared to standard models. The most commonly used piecewise exponential distribution, which assumes a constant hazard rate between changepoints, and therefore may not be realistic in many cases. In this talk, we present a unified approach that introduces a general structure for constructing piecewise models, allowing for different behaviors between the changepoints. The proposed structure yields models that are both easier to understand and interpret, while also providing greater accuracy and flexibility than parametric models. We discuss the mathematical properties of the proposed approach in detail, along with its application to various baseline models. We discuss inference on the model parameters, employing a profiled likelihood approach to estimate both the parameters and changepoint parameters in the model. Additionally, we provide application examples using different datasets to illustrate the effectiveness of the proposed approach.

2023-08-31
16:00 hrshrs.
Hernán Robledo Araya. PUC
Down with latent variables! A geometrical view of psychological and educational measurement
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

In psychological and educational measurement, the golden standard for the analysis of tests is Item Response Theory (IRT). In IRT, a statistical model is used and the trait score is represented by a latent variable, which is a non-observable quantity. There are several problems with this approach: the latent variable is not unique and non-psychometricians find it hard to interpret. The common way of dealing with this problem in psychometrics is denial and choosing arbitrarily for a particular latent variable representing the measured trait. In an attempt to rectify the situation, Ramsay (1996) presented a new approach for IRT models that is based on differential geometry. In Ramsay’s proposal, the trait score arises naturally from the model as the distance between two models is measured along a path or arc. This arc length does not have the drawbacks of the latent variable. However, Ramsay’s proposal has not yet been fully developed and therefore did not stick into the psychometric literature. In this project, I will improve Ramsay’s approach to IRT models. A new trait score (called the information arc length) is proposed and its statistical properties are being investigated. In addition, the IRT toolbox of techniques (e.g., equating) is extended under this framework. All procedures developed in this project will be made available in open-access statistical software. The results of this project will lead to an easier-to-interpret and invariant trait score.

2023-06-22
16:00 hrshrs.
Inés Varas Caceres. PUC
Linking measurements through a Bayesian nonparametric approach
SALA MULTIUSOS (2do piso), FELIPE VILLANUEVA
Abstract:

We propose a new method for linking measurements of different versions of an instrument in order to obtain comparable scores defined in the context on educational measurement, especifically on equating methods. Considering measurements as ordinal random variables we use its latent representation from a Bayesian nonparametric approach to define customised relations between specific subgroups of the population of interest. We applied the proposal in different contexts broader than educational measurement. 

2023-06-08
16:00 hrshrs.
Bladimir Morales Torrez. PUC
Modelo Skew-t con coeficientes parcialmente variables ST-PVCM
SALA MULTIUSOS (2do piso), FELIPE VILLANUEVA
Abstract:

Los modelos parciales con coeficientes variando (Partially Varying Coefficient Models PVCMs) son una herramienta importante en la modelación de datos ambientales, económicos, financieros, biomédicos y otros, que tienen en su formulación un componente paramétrico y otro no paramétrico además de presentar interacción de las funciones suaves desconocidas con otras covariables modificadoras de efecto, que flexibiliza a los modelos de regresión lineales clásicos, generaliza a los modelos aditivos generalizados (GAMs) y a los modelos con coeficientes variando (VCMs) propuestos por Hastie y Tibshirani (1986, 1993), que tienen usualmente en el componente aleatorio (errores) distribución gaussiana, pero en muchas ocasiones los datos suelen ser más complejos en el sentido de que pueden presentan altos niveles de asimetría y curtosis así como datos atípicos. El objetivo de este trabajo es extender los PVCMs, el cual permita tener en su componente aleatorio errores de distribución asimétrica y colas pesadas t-Student denominada Skew-t presentada por Azzalini y Capitanio 2003, Gupta et al. 2002 y Gupta 2003, incrementando la flexibilidad de este tipo de modelos originando el modelo Skew-t con coeficientes parcialmente variables (Skew-t Partially Varying Coefficient Model ST-PVCM). Específicamente se desarrolló el algoritmo de Esperanza-Maximización (EM) propuesto por Dempster et al. 1977 para la estimación de los parámetros, además de realizar la inferencia para la aproximación de los errores estándar siguiendo la idea de Ferreira y Paula 2016 y se desarrolló el análisis de diagnóstico mediante influencia local a partir de Cook 1986 y Zhu y Lee 2001, así como el leverage generalizado siguiendo a Osorio 2006. Luego para evaluar la eficiencia de la estimación del algoritmo EM se realizó un estudio de simulación con la implementación computacional en el software R. Finalmente se aplicó toda la teoría desarrollada a dos conjuntos de datos del Sistema de Información Nacional de Calidad del Aire (SINCA) de Chile, específicamente a datos de la estación de la comuna de Pudahuel de la Región Metropolitana de Santiago y de la comuna Coronel Norte de la región del Bío Bío mostrando la utilidad del modelo ST-PVCM, teniendo como variable de estudio el material particulado fino respirable PM_2.5, por la importancia que representa en temas de contaminación ambiental y salud de la población.

2023-05-25
16:00 hrshrs.
Eduardo Alarcón Bustamante. PUC
Monotonic selection assumptions for more informative prediction of grade point averages
SALA MULTIUSOS 2 (1er piso), FELIPE VILLANUEVA
Abstract:

The degree to which college admissions test scores predict college grade point average (GPA) is commonly studied under the name of predictive validity, being regression analyses one of the most used tools in this type of studies. A problem that occurs in an admission process is that test scores are observed for all the applicants; however, the GPA of applicants that were not selected cannot be observed. The standard solution to tackle this problem has relied in strong assumptions to identify the exact value of the regression function in presence of  missing data.

In this talk, I present an alternative approach based on the theory of partial identifiability that uses milder assumptions to learn about the regression function. For a data set of university admissions, the results based on a monotonic selection assumption show that the set of plausible values for the regression function is much more informative for predicting the GPA than those obtained under weakly informative assumptions.

2023-05-11
16:00 hrshrs.
Cristian Capetillo Constela. PUC
Algoritmos Tipo Metropolis en Inferencia Bayesiana
SALA MULTIUSOS (2do piso), FELIPE VILLANUEVA
Abstract:

La estadística Bayesiana ha tomado una importancia relevante en los modelos estadísticos actuales. Su capacidad de incorporar nueva información de diversas fuentes y su naturalidad para realizar predicciones suelen ser un punto fuerte de este enfoque. El elemento en el cuál se basa la inferencia Bayesiana es la distribución a posteriori que es proporcional a la función de verosimilitud por la priori. Lamentablemente, el cálculo de esta distribución, o bien, cálculos que la involucren, suelen ser imposibles de resolver analíticamente y es necesario optar por métodos aproximados.

Debido a la complejidad de la posteriori, se han desarrollado técnicas computacionales para poder llevar a cabo la inferencia en el problema asociado. El conjunto de estas técnicas se denomina Computación Bayesiana. Dentro de la computación Bayesiana existe un conjunto de métodos denominados Markov Chain Monte Carlo (MCMC), que se basan en generar una cadena de Markov ergódica cuya distribución estacionaria y límite es justamente la posteriori. Desafortunadamente, el costo computacional puede ser bastante alto si se utiliza un método muy general como el Metropolis-Hastings vía caminata aleatoria. Suele ser común entonces que en base al problema, se utilice un algoritmo específico que haya sido estudiado en problemas relacionados.

Por la razón anterior es que en esta presentación se propone comparar tres algoritmos MCMC en distintos modelos Bayesianos: Random Walk Metropolis-Hastings (RWMH), Metropolis-Adjusted Langevin Algorithm (MALA) y Hamiltonian Monte Carlo (HMC). Éstos dos últimos tienen en común el uso del gradiente de la log-posteriori para la generación de la cadena de Markov.

2023-04-20
16:00 hrshrs.
Francisco Segovia Godoy. PUC
A survival curve estimator with hypothesis testing using Bayesian variable selection
SALA 3, FACULTAD DE MATEMÁTICAS
Abstract:

En el área de sobrevivencia es común buscar el estimar curvas de sobrevivencia para los tiempos de falla y concluir si existe una diferencia significativa entre dos curvas o no. Para esto, existen métodos conocidos tales como el estimador de Kaplan-Meier, test de log-rank o modelos de Cox. Sin embargo, las técnicas mencionadas poseen ciertas restricciones que buscamos superar. En esta presentación mostramos un método que sirve tanto para estimar curvas de sobrevivencia como para identificar predictores relevantes, usando una técnica de aumentación de datos bajo inferencia Bayesiana. La estrategía de selección de predictores está basada en la metodología Spike-and-slab. Se presenta tanto el método como el algoritmo de su Gibbs sampling. Finalmente, ajustamos nuestro modelo a una aplicación para datos reales.

2023-03-30
16:00 hrshrs.
Leonardo Barrios. PUC
Extensión de la distribución inversa power Muth usando composición de power series
SALA 2, FACULTAD DE MATEMÁTICAS
Abstract:

Se introduce una nueva distribución con soporte positivo, la cual permite una mayor flexibilidad para adaptarse a distintos tipos de datos en el área científica. Esta distribución, denominada inversa power Muth power series, es una extensión de la distribución inversa power Muth propuesta por Chesneau y Agiwal (2021), que es una composición entre las distribuciones inversa power Muth y la clase de distribuciones power series (Noak, 1950), destacando por primera vez el uso de la distribución Bell en este contexto. Se presentan las funciones de densidad, de sobrevivencia y de riesgo, así como los momentos de la distribución y la entropía diferencial. Haciendo uso de la representación estocástica del modelo se implementan los estimadores de máxima verosimilitud, a través del el algoritmo EM, y los errores estándar se calculan usando el método Oakes. Se realizan estudios de simulación de Monte Carlo para evaluar el desempeño de los estimadores de máxima verosimilitud en muestras finitas, y se presentan dos ilustraciones a conjuntos de datos reales, donde se compara con varios modelos comúnmente utilizados en la literatura también basados en composición del modelo power series.

2022-12-02
14:00hrs.
Nixon Jerez Lillo. PUC
Modelos Exponenciales de Grafos Aleatorios
SALA 2, FACULTAD DE MATEMÁTICAS
Abstract:

El Modelo Exponencial de Grafos Aleatorios (ERGM) es un modelo utilizado en grafos aleatorios que ha tenido una gran popularidad en el análisis estadístico de redes por permitir describir parsimoniosamente las fuerzas de selección locales que dan forma a la estructura global de una red (Hunter et al. 2008). Sus aplicaciones cruzan transversalmente diversas áreas, tales como las redes biológicas, informáticas, de trabajo, de conocimiento, etc.

 

La exposición tiene como objetivo dar a conocer esta nueva clases de modelos (en el marco de los modelos para variables binarias dependientes), y comprender sus desafíos (como modelo cuya constante normalizadora es intratable). Iniciaremos con una breve revisión bibliográfica sobre la forma en que algunos investigadores propusieron modelar redes para luego presentar el ergm y comprender la hipótesis de dependencia y homogeneidad por sobre el cual están construidos. A continuación, se ahondará en la forma con la que hacer inferencia clásica y bayesiana, cómo simular redes sintéticas a partir de él y una revisión a los métodos de bondad de ajuste que son utilizados.

2022-11-25
14:00hrs.
Hernán Robledo Araya. PUC
Psicometría: Puntuación de percepciones de seguridad en escuelas chilenas
Sala usos multiples 1 FELIPE VILLANUEVA
Abstract:

El Cuestionario de Contexto y Calidad de la Educación mide atributos relacionados a las percepciones del sistema educativo en estudiantes, profesores y apoderados para los cursos de 4° básico, 8° básico, y 2° medio. Estas percepciones son capturadas con cuestionarios autorreportados que miden clima escolar, motivación académica y escolar, entre otros. Teoría de Respuesta al Ítem (IRT) es un enfoque de modelamiento con variables latentes que es utilizado para modelar datos recopilados a través de este cuestionarios. Se presentará una aplicación de estos modelos para proponer cómo calcular un índice válido y confiable que representa las percepciones de seguridad de los miembros del sistema escolar.