Taller Muestreo

Autor/a

Afiliaciones

Recursos Didácticos y Tecnológicos para la Enseñanza

Subsecretaria de Planeamiento Educativo - PBA

Fecha de publicación

13 de febrero de 2026

1 Introducción

En este curso/taller vamos a ir interactuando entre algo de teoría, algo de datos y algo de código. Generalmente, vamos a trabajar con un solo insumo empírico que es una base de datos de establecimientos educativos de nivel primario de gestión estatal de la provincia de Buenos Aires. Con este insumo en una primera instancia nos vamos a focalizar en una serie de diseños clásicos de muestreo y en la construcción de ponderadores. En una segunda instancia vamos a ver diseños que implican:

a) Alguna combinación en más de un paso de estos diseños clásicos (muestras complejas) o

b) diseños de un solo paso cuyos supuestos o modo de proceder son algo diferentes al de los clásicos (p.e. diseños balanceados y bien distribuidos).

Finalmente, se verán algunas estrategias de calibración que, en principio, al ser instancias post-diseños, pueden ser aplicadas/combinadas con cualquiera de los anteriores diseños.

El código con que vamos a procesar los datos a lo largo del taller va a ser en lenguaje R. R es un lenguaje de programación que parece una opción razonable tanto para el diseño de la muestra como su posterior calibración y análisis de los datos. Si bien diseños de métodos de muestreo relativamente simples son posibles de realizarse en varios otros lenguajes la situación se complica un poco a medida que se quieren utilizar, y luego analizar, diseños más complejos. En esta última situación, ya no es posible conseguir librerías especializadas en muchos lenguajes aparte de R, Python, Julia y SAS.

Dentro del ecosistema de R, ejemplos de librerías para analizar datos producidos con diseños muestrales pueden considerarse survey, svrep y su correspondiente versión tidy srvyr. Estas librerías generalmente agregan meta-información al dataframe original que hace referencia al modo o diseño en que fue realizada la muestra. Esta información luego es utilizada para realizar estimaciones puntuales con sus respectivos errores estandard, intervalos de confianza o coeficientes de variación. La librería survey es una librería madura mantenida principalmente por Thomas Lumley (un personaje conocido dentro de la comunidad estadística en general y en la en R en particular). La librería srvyr puede considerarse como su sucesora más moderna, aunque como lo destacan sus propios autores, se trata de una librería más amigable para el usuario en donde la mayoría del trabajo sucio lo sigue haciendo por detrás la librería survey. Algo similar resulta entre la relación entre survey y svrep ya que esta última se puede considerar una extensión de la primera para el cálculo de ponderadores replicados (replicate weights). Algo importante a destacar es la compatibilidad entre las 3 librerías y que, a pesar de la diferencia generacional (Lumley es el mayor) existe una relación afectuosa entre los diferentes autores. En efecto, Ben Schneider, el creador de la librería svrep, es un asiduo contribuidor de los 3 paquetes antes nombrados.¹

Ejemplos de librerías que sirven para el diseño de las muestras y su posterior ajuste son sampling, balanced sampling y spbsampling. Al igual que con las librerías anteriores, aquí también existe relación entre los diferentes autores. La librería sampling es una librería madura creada bajo la tutela de Yver Tillé, que es otro personaje bastante conocido tanto en el mundo de la estadística académica como dentro de los organismos oficiales de estadística de diferentes países. La librería balanced sampling hace mucho de las funciones que la librería sampling, pero es más moderna (corre en C⁺⁺) y es mantenida por Anton Grafstrom que ha escrito con Tillé. Por otro lado, la librería spbsampling se especializa en muestreos espaciales (balanced sampling también tiene funciones para eso), se ejecuta en C⁺⁺ y es mantenida por Roberto Benedetti. Tanto Benedetti como Grafstrom se reconocen entre ellos y algo interesante es que si, bien ambos han trabajado con institutos oficiales de estadística, ambos se especializan en organismos de agricultura. De ahí que ambos muestren interés en la dimensión espacial de los diseños muestrales porque esta es útil a la hora de, por ejemplo, diseñar una buena muestra de la vegetación de un bosque.²

Por último, para el cálculo de los tamaños muestrales con diferentes diseños (y otras yerbas) puede consultarse la librería PracTools. No se trata de una libraría muy sofisticada como algunas de las anteriores pero se trata de una librería útil y relativamente bien documentada. Un dato no menor es que uno de sus autores es Richard Valliant que, a su turno, es uno de los mayores exponentes de un enfoque importante dentro del mundo del muestreo como es el “Model Assisted Sampling”. ³

1.1 Librerías utilizadas

Abajo hay un código para instalar y cargar las librerías que vamos a utilizar. El código se encarga de cargar las librerías y de instalar las mismas en el caso de que no se encuentren previamente instaladas.

Existen más librerías que pueden considerarse como extensiones de survey. robsurvey, para la realización de estimaciones robustas, es otro ejemplo.↩︎
Para aquel que le interesa agregar explícitamente la dimensión espacial en los diseños muestrales puede consultar la obra de Dick Brus “Spatial sampling with R”. Brus, un geólogo ahora ya retirado, es una eminencia mundial en la temática de los muestreos de suelo (soil sampling) y más en general, de los muestreos espaciales.↩︎
Otras librerías que existen dentro del ecosistema de R pero que no veremos aquí son SamplingStrata y surveyplanning.↩︎

# Introducción {#sec-introduccion} En este curso/taller vamos a ir interactuando entre algo de teoría, algo de datos y algo de código. Generalmente, vamos a trabajar con un solo insumo empírico que es una base de datos de establecimientos educativos de nivel primario de gestión estatal de la provincia de Buenos Aires. Con este insumo en una primera instancia nos vamos a focalizar en una serie de *diseños* clásicos de muestreo y en la construcción de ponderadores. En una segunda instancia vamos a ver diseños que implican: a\) Alguna combinación en más de un paso de estos diseños clásicos (muestras complejas) o b\) diseños de un solo paso cuyos supuestos o modo de proceder son algo diferentes al de los clásicos (p.e. diseños balanceados y bien distribuidos). Finalmente, se verán algunas estrategias de calibración que, en principio, al ser instancias post-diseños, pueden ser aplicadas/combinadas con cualquiera de los anteriores diseños. El código con que vamos a procesar los datos a lo largo del taller va a ser en lenguaje R. R es un lenguaje de programación que parece una opción razonable tanto para el diseño de la muestra como su posterior calibración y análisis de los datos. Si bien diseños de métodos de muestreo relativamente simples son posibles de realizarse en varios otros lenguajes la situación se complica un poco a medida que se quieren utilizar, y luego analizar, diseños más complejos. En esta última situación, ya no es posible conseguir librerías especializadas en muchos lenguajes aparte de R, Python, Julia y SAS. Dentro del ecosistema de R, ejemplos de librerías para analizar datos producidos con diseños muestrales pueden considerarse [survey](https://r-survey.r-forge.r-project.org/survey/), [svrep](https://bschneidr.github.io/svrep/) y su correspondiente versión tidy [srvyr](http://gdfe.co/srvyr/). Estas librerías generalmente agregan meta-información al dataframe original que hace referencia al modo o diseño en que fue realizada la muestra. Esta información luego es utilizada para realizar estimaciones puntuales con sus respectivos errores estandard, intervalos de confianza o coeficientes de variación. La librería survey es una librería madura mantenida principalmente por [Thomas Lumley](https://en.wikipedia.org/wiki/Thomas_Lumley_(statistician)) (un personaje conocido dentro de la comunidad estadística en general y en la en R en particular). La librería srvyr puede considerarse como su sucesora más moderna, aunque como lo destacan sus propios autores, se trata de una librería más amigable para el usuario en donde la mayoría del trabajo sucio lo sigue haciendo por detrás la librería survey. Algo similar resulta entre la relación entre survey y svrep ya que esta última se puede considerar una extensión de la primera para el cálculo de ponderadores replicados (*replicate weights*). Algo importante a destacar es la compatibilidad entre las 3 librerías y que, a pesar de la diferencia generacional (Lumley es el mayor) existe una relación afectuosa entre los diferentes autores. En efecto, [Ben Schneider](https://github.com/bschneidr), el creador de la librería svrep, es un asiduo contribuidor de los 3 paquetes antes nombrados.[^index-1] [^index-1]: Existen más librerías que pueden considerarse como extensiones de survey. [robsurvey](https://cran.r-project.org/web/packages/robsurvey/index.html), para la realización de estimaciones robustas, es otro ejemplo. Ejemplos de librerías que sirven para el diseño de las muestras y su posterior ajuste son [sampling](https://cran.r-project.org/web/packages/sampling/index.html), [balanced sampling](https://envisim.se/balancedsampling) y [spbsampling](https://cran.r-project.org/web/packages/Spbsampling/index.html). Al igual que con las librerías anteriores, aquí también existe relación entre los diferentes autores. La librería sampling es una librería madura creada bajo la tutela de Yver Tillé, que es otro personaje bastante conocido tanto en el mundo de la estadística académica como dentro de los organismos oficiales de estadística de diferentes países. La librería balanced sampling hace mucho de las funciones que la librería sampling, pero es más moderna (corre en C^++^) y es mantenida por [Anton Grafstrom](https://scholar.google.com/citations?user=JkMAOUEAAAAJ&hl=sv) que ha escrito con Tillé. Por otro lado, la librería spbsampling se especializa en muestreos espaciales (balanced sampling también tiene funciones para eso), se ejecuta en C^++^ y es mantenida por [Roberto Benedetti](https://scholar.google.com/citations?user=h_Rnt4kAAAAJ&hl=it). Tanto Benedetti como Grafstrom se reconocen entre ellos y algo interesante es que si, bien ambos han trabajado con institutos oficiales de estadística, ambos se especializan en organismos de agricultura. De ahí que ambos muestren interés en la dimensión espacial de los diseños muestrales porque esta es útil a la hora de, por ejemplo, diseñar una buena muestra de la vegetación de un bosque.[^index-2] [^index-2]: Para aquel que le interesa agregar explícitamente la dimensión espacial en los diseños muestrales puede consultar la obra de Dick Brus "[Spatial sampling with R](https://dickbrus.github.io/SpatialSamplingwithR/)". Brus, un geólogo ahora ya retirado, es una eminencia mundial en la temática de los muestreos de suelo (*soil sampling*) y más en general, de los muestreos espaciales. Por último, para el cálculo de los tamaños muestrales con diferentes diseños (y otras yerbas) puede consultarse la librería [PracTools](https://cran.r-project.org/web/packages/PracTools/index.html). No se trata de una libraría muy sofisticada como algunas de las anteriores pero se trata de una librería útil y relativamente bien documentada. Un dato no menor es que uno de sus autores es [Richard Valliant](https://scholar.google.com/citations?user=6Q5RKeAAAAAJ&hl=en) que, a su turno, es uno de los mayores exponentes de un enfoque importante dentro del mundo del muestreo como es el "*Model Assisted Sampling*". [^index-3] [^index-3]: Otras librerías que existen dentro del ecosistema de R pero que no veremos aquí son [SamplingStrata](https://barcaroli.github.io/SamplingStrata/) y [surveyplanning](https://csblatvia.github.io/surveyplanning/). ## Librerías utilizadas Abajo hay un código para instalar y cargar las librerías que vamos a utilizar. El código se encarga de cargar las librerías y de instalar las mismas en el caso de que no se encuentren previamente instaladas. ```{r} #| eval: false # Código para activar librerias. Instala también las librerías que se necesitan pero no están instaladas previamente install.packages("pacman", repos = "http://cran.us.r-project.org") ``` ```{r} #| label: libraries pacman::p_load(survey, svrep, srvyr, sampling, BalancedSampling, Spbsampling, PracTools, tidyverse, janitor, here, readxl, infer, gt, gtsummary, cardx, patchwort, gstat, sf, tmap) ```