L. Borrajo, R. Cao Abad, S. Olhede, S. Chandna

It is often argued that in big data setups "numbers speak for themselves". However, some authors have recently warned about the validity of this idea due to the common presence of sampling bias. Several problems coming from ignoring this bias have been recently reported. A fully nonparametric approach is considered in this work. The probability mass function estimation problem is studied over categorical data, when the biasing weight function is known (unrealistic) as well as for unknown weight functions (realistic). In addition to the big-but-biased sample, a small sized simple random sample of the real population is considered. An estimator involving both samples is proposed to remedy the problem of ignoring the weight function. Asymptotic expressions for the mean squared error of this estimator are considered. This leads to some asymptotic formulas for the optimal smoothing parameters. A dataset related to food allergies is used to illustrate the performance of the estimator.

Palabras clave / Keywords: biased data, big data, categorical data, sampling bias, smoothing parameter

Programado

Sesión J03 Estadística No Paramétrica
31 de mayo de 2018  10:20
Sala 2


Otros trabajos en la misma sesión


Últimas noticias

  • 04/06/18
    Certificados
  • 13/04/18
    Resumen del programa y Programa detallado
  • 22/03/18
    Descuentos en medios de trasporte para congresistas y acompañantes
  • 01/02/18
    Ampliación del plazo de tarifa superreducida
  • 19/01/18
    Ampliación de plazos
  • 15/01/18
    Programación para el día 29 de mayo
  • 15/01/18
    Conferenciantes plenarios
  • 12/01/18
    Sede: Palacio de Congresos
  • 24/12/17
    Sesión plenaria en memoria del Profesor Pedro Gil
  • 24/12/17
    Corrección bases del Premio Ramiro Melendreras

Política de cookies

Usamos cookies solamente para poder idenfiticarte y autenticarte dentro del sitio web. Son necesarias para el correcto funcionamiento del mismo y por tanto no pueden ser desactivadas. Si continúas navegando estás dando tu consentimiento para su aceptación, así como la de nuestra Política de Privacidad.

Adicionalmente, utilizamos Google Analytics para analizar el tráfico del sitio web. Ellos almacenan cookies también, y puedes aceptarlas o rechazarlas en los botones de más abajo.

Aquí puedes ver más detalles de nuestra Política de Cookies y nuestra Política de Privacidad.