Nonparametric probability mass function estimation for big-but-biased data

L. Borrajo, R. Cao Abad, S. Olhede, S. Chandna

It is often argued that in big data setups "numbers speak for themselves". However, some authors have recently warned about the validity of this idea due to the common presence of sampling bias. Several problems coming from ignoring this bias have been recently reported. A fully nonparametric approach is considered in this work. The probability mass function estimation problem is studied over categorical data, when the biasing weight function is known (unrealistic) as well as for unknown weight functions (realistic). In addition to the big-but-biased sample, a small sized simple random sample of the real population is considered. An estimator involving both samples is proposed to remedy the problem of ignoring the weight function. Asymptotic expressions for the mean squared error of this estimator are considered. This leads to some asymptotic formulas for the optimal smoothing parameters. A dataset related to food allergies is used to illustrate the performance of the estimator.

Palabras clave / Keywords: biased data, big data, categorical data, sampling bias, smoothing parameter

Programado

Sesión J03 Estadística No Paramétrica
31 de mayo de 2018 10:20
Sala 2

Otros trabajos en la misma sesión

On optimal tests for rotational symmetry against new classes of hyperspherical distributions

E. García-Portugués, D. Paindaveine, T. Verdebout

A non-iterative estimator for interval sampling and doubly truncated data

J. de Uña Álvarez

Comparando curvas ROC condicionadas al valor de una covariable

A. Fanjul Hevia, W. González Manteiga, J. C. Pardo Fernández

Nonparametric mean estimation for big-but-biased data

R. Cao Abad, L. Borrajo López

Últimas noticias

04/06/18
Certificados
Están disponibles en el área privada los certificados de asistencia, de presentación de trabajo y de moderación de sesión.
13/04/18
Resumen del programa y Programa detallado
En este enlace puedes encontrar un enlace al Resumen del Programa para el Congreso SEIO y las Jornadas de Estadística Pública 2018, y a partir de él (o directamente aquí) el Programa Científico detallado.
22/03/18
Descuentos en medios de trasporte para congresistas y acompañantes
La organización del XXXVII Congreso de la Sociedad de Estadística e Investigación Operativa y de las XI Jornadas de Estadística Pública está tratando de facilitar en parte el desplazamiento durante las fechas de celebración de ambos encuentros. Para ello, estamos negociando con algunas de las empresas que realizan los servicios de transporte de pasajeros entre el Principado de Asturias y el resto de España con la finalidad de que podamos ofreceros un descuento sobre el coste del viaje en esos medios. Mediante este mensaje nos es grato comunicarte que, a día de hoy, hay un acuerdo para conseguir un 15% de descuento si el desplazamiento lo vas a realizar en autobús y un 30% de descuento si lo vas a realizar en trenes de alta velocidad o larga distancia. Los detalles están disponibles en el menú "Medios de transporte" que aparece en el área privada.
01/02/18
Ampliación del plazo de tarifa superreducida
Se ha ampliado el plazo de inscripción con tarifa superreducida: hasta el 28 de febrero.
19/01/18
Ampliación de plazos
Se han ampliado los plazos para el envío de propuestas de sesiones invitadas (hasta el 10 de febrero) y de abstracts (hasta el 25 de febrero) para el Congreso SEIO'2018.
15/01/18
Programación para el día 29 de mayo
El día 29 de mayo va a estar exclusivamente dedicado a la celebración de las reuniones (sin ponencias) y sesiones (con ponencias) de los Grupos de Trabajo SEIO, y a las exposiciones de los candidatos de la actual convocatoria del Premio Ramiro Melendreras. La hora de inicio del Programa de ese día se fijará en función del número de sesiones, del número de candidatos al premio y de lograr una distribución de actividades lo más oportuna posible.
15/01/18
Conferenciantes plenarios
Conferenciantes plenarios de Estadística, Investigación Operativa y Estadística Pública.
12/01/18
Sede: Palacio de Congresos
La sede será el Palacio de Exposiciones y Congresos Ciudad de Oviedo. Enlace para el plano detallado
24/12/17
Sesión plenaria en memoria del Profesor Pedro Gil
El Comité Organizador quiere aprovechar la oportunidad de que el Congreso SEIO se celebre en esta edición en Asturias para dedicar una sesión plenaria en memoria del Profesor Pedro Gil, creador del Departamento de Estadística e Investigación Operativa y Didáctica de la Matemática de la Universidad de Oviedo, impulsor de los estudios de Matemáticas en dicha Universidad y Presidente de la SEIO. Es previsible que esta sesión se desarrolle en la mañana del día 1 de junio, y resulta una ocasión excepcional para poder reunir a su Sociedad y a su Universidad.
24/12/17
Corrección bases del Premio Ramiro Melendreras
El Comité Científico del Congreso SEIO’2018 junto con el Consejo Ejecutivo de la SEIO han acordado que aunque no exista un criterio plenamente neutral y satisfactorio parece conveniente (con el fin de que los candidatos sepan con tiempo a qué atenerse) aplicar la recomendación que se daba en el Punto 1.7 del Manual de instrucciones para la organización de los congresos nacionales de Estadística e Investigación Operativa y de las Jornadas de Estadística Pública (http://www.seio.es/descargas/manualCongresosSEIO.pdf), según la cual esa fecha límite inferior correspondería al 1 de enero de 30 años menos que el año en el que se celebra la edición correspondiente. De este modo, en el Congreso SEIO’2018, la Base 1 queda (1. Podrán participar en la convocatoria del premio todos los candidatos nacidos en el año 1988 o posteriores).

Nonparametric probability mass function estimation for big-but-biased data

Otros trabajos en la misma sesión

Últimas noticias

Organizan

Colaboran

Nonparametric probability mass function estimation for big-but-biased data

Otros trabajos en la misma sesión

Últimas noticias

Organizan

Colaboran

Política de cookies