6 Muestra PEB 2025

Las pruebas PEB (Pruebas Escolares Bonaerenses) son un programa orientado a mejorar la enseñanza y el aprendizaje de Matemática y Prácticas del Lenguaje en el nivel Primario, tanto en el sector estatal como en el privado, que se puso en marcha en 2022 en la Provincia de Buenos Aires (Subsecretaría 2025, pág. 5).

Desde el punto de vista metodológico que tiene que ver con cuestiones muestrales es pertinente destacar que estas pruebas aspiran a ser realizadas al total de los estudiantes aunque luego se registran sus resultados a través de dos componentes diferentes. Un primer componente censal aunque con datos agregados y un segundo componente muestral con datos nominales. Lo que se detalla a continuación es el proceso de selección muestral de este segundo componente nominal. Primero lo haremos haciendo referencia a la muestra diseñada en 2023 y luego para la de 2025.

6.1 Muestra 2023

Para tener como referencia vamos a intentar representar el método de selección de la muestra que se utiliza desde 2023. Primero la vamos a intentar describir y luego clasificar.

6.1.1 Descripción

Un resumen descriptivo de la misma es la siguiente afirmación:

“En paralelo, se relevaron resultados por estudiante en una muestra probabilística de 680 escuelas. Para cada institución, se solicitó información sobre las respuestas a las actividades de 5 estudiantes seleccionados al azar por las y los docentes de cada sección” (Subsecretaría 2024, pág. 18).

Más en detalle también se afirma “La construcción de la muestra siguió un diseño probabilístico, con selección sistemática de las unidades de muestreo. Previo a la selección, en el marco muestral (nómina de establecimientos de nivel primario) se agruparon los establecimientos en estratos constituidos por el cruce de las variables “dependencia de los establecimientos educativos” (provincial y resto-incluyendo en este último grupo a los establecimientos privados, municipales y nacionales), “porcentaje de estudiantes con AUH”, “presencia o no de jornada completa” y “ámbito”. Luego, se ordenaron los establecimientos por estrato, y se realizó una selección sistemática siguiendo la fracción de muestreo correspondiente” (Subsecretaría 2024, pág. 18).

La descripción anterior alcanzaría para una descricpión de la selección de establecimientos. Pero todavía falta el paso que describe la selección de los estudiantes:

“Para cada sección de los años de estudio evaluados, se solicitó la selección de las/los primeros o últimos estudiantes de la lista (por orden alfabético) que hayan realizado la prueba. En secciones pequeñas (de hasta 10 estudiantes), se requirió la carga de información de todas y todos los estudiantes” (Subsecretaría 2024, pág. 18).

Precaución

No hace falta aclarar que intentar reconstruir una muestra a partir de descripciones en prosa suele ser una actividad arriesgada. Esto se debe a que puede haber confusiones entre los objetivos de la muestra, las acciones que se hicieron en el momento del diseño, las que efectivamente se hicieron en campo y, algo no menos importante, los términos que se usan para describir todo lo anterior.

Hay veces que, aunque parezca paradógico, para alguien que tiene que clasificar a una muestra, es preferible que le digan paso a paso que hicieron en un lenguaje cercano al sentido común sin usar términos propios de la jerga del muestreo. La razón es que en muestreo hay términos que tienen un significado particular que no es el mismo que tienen en otras disciplinas no tan lejanas. Por ejemplo, la palabra “estratificación” tanto en ciencias sociales con en el lenguaje común, suele tener una connotación ordinal, pero en muestreo tiene una connotación muy particular y no necesariamente ordinal. Del mismo modo, alguien con experiencia en análisis de datos entiende por “análisis de clústers (o conglomerados)” algo muy diferente a lo que un muestrista entiende cuando afirma que se realizó un “diseño muestral por conglomerados”.

Lo anterior se complica porque es usual que en los diseños muestrales de las ciencias sociales se hagan diseños polietápicos lo que hace que, por ejemplo, circulen afirmaciones como “muestreo estratificado por conglomerados”. En este caso es posible suponer más de una manera de entender esta afirmación y, a posteriori, más de una manera de haber diseñado o ejecutado esa muestra. Por ejemplo, ¿Se ejecutó primero en campo la parte de los conglomerados y luego se seleccionó por estratos? ¿O se hizo al revés? ¿El orden escrito se refiere a la “ejecución” de los pasos o refiere que momento se “diseñó” cada parte del diseño?

6.1.2 Clasificación

En función de la bibliografía/léxico usado en las secciones anteriores se podría realizar los siguientes comentarios sobre las afirmaciones anteriores:

Antes que nada se observa una particularidad importante. En las PEB efectivamente se va a (casi) todas las unidades de la población de estudiantes. La muestra es solo para ver a cuáles de ellos se “registra” de forma individual. Esto es algo particular porque muchas de las técnicas de muestreo están pensadas para justamente evitar ir a todas las unidades de la población o, en su defecto, para a que a una determinada subpoblación (muestra) se le pueda hacer más preguntas, mediciones, ensayos, etc. que hacen más extensa y profunda y, por lo general, más onerosa la investigación. En lo que acá respecta, lo oneroso no parece la prueba en sí, sino su posterior carga nominal. Esto hace (re)pensar cuál es la población de la muestra:

¿Es la población de estudiantes de todo el nivel primario?

¿Es la población de estudiantes de algunos años específicos de nivel primario (p.e. 3 y 6) a los cuales se les piensa realizar las PEB?

¿Es la población de estudiantes de algunos años específicos de nivel primario (p.e. 3 y 6) a los que efectivamente se les realizó las PEB?

Cabe destacar que en una muestra típica solo se podría decidir entre las primeras dos poblaciones porque, como se comentó arriba, muchas veces uno de los objetivos de la muestra es evitar “ir” o “medir” a cada componente de la población. Sin embargo, en la PEB es posible también decidir que la tercera población sea la más idónea. En efecto, más allá de los posibles problemas de conseguir datos de esa población es claro que no tiene mucho sentido seleccionar estudiantes o secciones que no pertenecen a los establecimientos del “censo” previo.

Dejando estas cuestiones referidas sobre qué población se debería hacer la muestra, el diseño muestral anterior se podría clasificar del siguiente modo:

Un diseño polietápico. En una primera etapa se seleccionan a los establecimientos y luego, en una segunda etapa, se seleccionan a los estudiantes de ese establecimiento a través de sus respectivas secciones. Se suele afirmar que los establecimientos son la unidad de selección primaria y los estudiantes son la unidad de selección secundaria y final. Es importante destacar que los establecimientos cumplen la función de ser un conglomerado en este diseño. En otras palabras, cada establecimiento es como un racimo (cluster) en donde se agrupan secciones y estudiantes. Por cuestiones logísticas es útil seleccionar primero a los establecimientos y luego a los estudiantes que están en su interior. En esta descripción no decimos nada sobre las secciones porque en las descripciones de arriba parecería que ellas no se “seleccionan” aunque más adelante diremos algo sobre esto.
En la primera etapa se hace un diseño muestral estratificado de establecimientos con asignación proporcional mediante un método de selección sistemático. Este diseño primero crea una serie de categorías discretas en las que se presume que la varianza de la/s variables a estimar son algo menor a la varianza promedio de toda la población. Esto permite una ganancia estadística que se puede usar tanto para aumentar la precisión de la estimación o para reducir la cantidad de casos de la muestra. Cuanto se logre esto último es una cuestión que depende de la asociación de las variables seleccionadas para construir los estratos con las variables a estimar. Lo que también (parcialmente) asegura este diseño es que se incluyan en la muestra casos de estratos chicos en tamaño que, mediante un diseño por azar simple, podrían quedar subrepresentados en la muestra.
Decimos que la estratificación es de una asignación proporcional porque la cantidad de casos a seleccionar para cada estrato estará en línea con los tamaños de estratos (no con los tamaños de los establecimientos). Esta muestra, al menos en este paso, intenta replicar la distribución porcentual de los estratos.
Dentro de cada estrato la selección es sistemática, y por lo tanto, probabilística.
En la segunda etapa se aplica una regla que apunta a resolver dos cuestiones diferentes. A “cuantos” y “a quienes” se le van a cargar los datos nominales. Respecto al “cuantos” parece que se resuelve con la regla de cargar todos los casos para las secciones de hasta 10 estudiantes y 5 para el resto. Aunque quizá pase más desapercibido, en esta seguda etapa las secciones cumplen la función de estrato, por lo que la segunda etapa se podría decir que se trata de una selección de estudiantes estratificada por las secciones. En cambio, el “a quienes” se resuelve mediante una regla que selecciona a los “primeros o últimos estudiantes de la lista (por orden alfabético)”. Esta regla tiene el beneficio de ser simple (siendo esto un punto a favor) aunque, en principio, es no probabilística en el sentido que no se trata de selección por azar simple ni sistemática, etc. Su carácter no probabilísitica, no asegura que sea sesgada.

Si la clasificación anterior es correcta se podrían hacer también los siguientes comentarios sobre esa muestra:

La afirmación “Para cada institución, se solicitó información sobre las respuestas a las actividades de 5 estudiantes seleccionados al azar por las y los docentes de cada sección” no parece coincidir con lo realizado. Lo que la muestra selecciona al azar son “establecimientos” pero no “estudiantes”.

La regla sobre la discrecionalidad para que el docente elija los 5 primeros o los 5 últimos induce una dosis de arbitrariedad. La traducción de sí esto en un sesgo (o no) es una cuestión que, de forma aproximada, se puede resolver de forma empírica¹. Por otro lado, si se asume que cada docente eligirá siempre al “mejor” grupo (comparando a los 5 primeros versus los 5 últimos) esto no generará un mayor problema en las comparaciónes entre establecimientos, secciones, etc. pero, posiblemente, sesge todos los resultados nominales de las pruebas hacia “arriba”. En principio, esto se podría testear empíricamente comparando las medias de las notas muestrales de cada sección/establecimiento con las medias de las respectivas notas censales de las mismas secciones/establecimientos que entraron en la muestra.

En este diseño, al menos en su primera etapa, los estudiantes de los establecimientos más grandes tienen menores chances de salir en la muestra. Si esto no se corrige mediante ponderadores (ex-ante) o calibradores (ex-post) explícitos esto podría generar un sesgo en los análisis de los resultados. En otras palabras, si cada establecimiento dentro de un estrato tuvo la misma probabilidad de ser elegido de forma independientemente de su matrícula, entonces para esa primera etapa la probabilidad final de selección para un estudiante no es constante.

Algo de esto se corrige en la segunda etapa. Acá influye que la regla de cargar los datos sea por sección y no por establecimiento. Esta regla es la que legitima entender a la muestra anterior como una muestra polietápica en donde en la segunda etapa se usa un diseño estratificado por sección.

A primera vista las secciones podrían ser consideradas como conglomerados en donde seleccionar estudiantes de su interior asumiendo alguna ventaja logística si se selecciona solo una de ellas, por ejemplo, por azar simple. Sin embargo, la acción anterior podría ser conveniente si se asume que las secciones (de un mismo establecimiento) poseen una similar heterogeneidad con respecto a al variable de estudio (p.e. las notas en las PEB). De todos modos, dada la peculariedad de las PEB, la ventaja logística residiría en que hay menos docentes/administrativos que contactar y, no menos importante, menos por controlar después. Acá no habría nada de ventaja logísitica, por ejemplo, desde el punto de vista geográfico. La razón es que, por un lado, “ya se fue” a evaluar a cada estudiante y ahora quedaría decidir los datos de quien se registra de modo nominal.

Si se pasa al otro extremo de seleccionar a todas las secciones del establecimiento elegido (como efectivamente se hizo en la muestra 2024) no hay tal etapa de “selección” a nivel de las secciones. En ese caso las etapas de selección de la muestra son a nivel de los establecimientos y a nivel de los estudiantes, pasando por alto el nivel de las secciones. En efecto, la acción de ir a todas las secciones es como si se hubiera tenido la intención de estratificar debido, quizás, a la sospecha de una posible escasa similitud entre las secciones de un mismo establecimiento. Siguiendo este modo de razonar, el investigador se asegura que los estudiantes sean seleccionados a través de diferentes secciones cumpliendo el deseo de un muestrista que estratifica para que luego se seleccionen los casos dentro de cada estrato. Hace unas líneas se dijo “como si” hubiera tenido la intención de estratificar porque, estrictamente, no sabemos si se estratificó por la razón de reducir el error de la estimación (lo usual en esta técnica) o por si, por el contrario y/o de forma complementaria, por la consecuencia que trae usar este método en las probabilidades de selección de los estudiantes de los establecimientos con mayor matrícula.

De esta manera, a pesar de no ser la típica consecuencia buscada de la estratificación, aquellos establecimientos con mayor cantidad de secciones (y en general con mayor matrícula) pueden tener una mayor chances de incluir a sus estudiantes en la muestra. En efecto, en la Figura 6.1 se observa una relación estrecha entre el tamaño de la matrícula y la cantidad de secciones del establecimiento.

Figura 6.1: Relación entre el tamaño de la matrícula y la cantidad de secciones de los establecimientos

Sin embargo, hacer un “censo” para las secciones pequeñas hace que se aumente la chance de seleccionar estudiantes de secciones pequeñas que, en general, pertenecen a establecimientos con una menor matrícula. A continuación se muestra en la Tabla 6.1 como las secciones de hasta 10 estudiantes suelen pertenecen a establecimientos con una media y una mediana de la matrícula muy por debajo de la que poseen las secciones más grandes.

Tabla 6.1: Comparación de la media y mediana de los establecimientos en función del tamaño de la sección (+- 10 estudiantes)

Variable de Matrícula	Chicas N = 7.026¹	No chica N = 65.866¹
Matrícula Inicial 2025	61,9 16,0	461,6 430,0
Desconocido	4	0
¹ Media Mediana

En cualquier caso, las reglas identificadas de la selección de los estudiantes parece tener efectos contrapuestos y es algo difícil de estimar el impacto de cada uno por separado. En particular es difícil de construir ponderadores que anticipen (ex-ante) el sesgo de estas decisiones. Claro que siempre se podrá recurrir al recurso de los calibradores (ex-post) para usarlos al momento del análisis, aunque parece una estrategia algo arriesgada.

Una opción que se puede tener cuenta en estos casos es la inclusión del tamaño de la matrícula en la probabilidad de seleccionar al establecimiento en la primera etapa. Esta estrategia puede tener más de un beneficio. Uno de ellos es que permite una regla simple para la segunda etapa. En efecto, se podría registrar una misma cantidad de estudiantes por establecimiento de forma independiente a la cantidad de secciones. Esto tiene el beneficio adicional que, siguiendo ese diseño, la muestra se vuelve autoponderada lo que facilita los análisis posteriores. Claro está que serán necesario la construcción de calibradores que corrijan la no-respuesta, pero esto es un escenario cualitativamente diferente al descripto en el párrafo anterior. En este contexto, si la muestra no tiene, a posteriori, problemas de no-respuesta, no sería necesario la construcción de calibradores. Sin entrar en detalles (porque en parte se entremezclan un lenguaje de intenciones u objetivos con un lenguaje de métodos) se podría decir que se podrían aprovechar algunas de las características que ofrece el método conocido como muestreo proporcional al tamaño (Sección 3.6).

Por último algunos comentarios van en línea sobre el espectro de inferencias posibles con la muestra 2023. En la biblografía sobre muestreo se suele hacer una distinción clásica entre los estratos y los dominios de estimación (Sección 3.4). Los primeros se suelen usar en el diseño (ex-ante) con la presunción de que en la población existen “clases” discretas que son parecidas en su interior y diferentes entre sí. Si esto es así, su inclusión en el diseño trae mejoras en la precisión en la estimación. En cambio, los dominios tienen que ver con los objetivos o intenciones posteriores del investigador para con la muestra. Por ejemplo, aun el contexto en que se tenga la hipótesis que los establecimientos y los estudiantes rurales poseen fuertes particularidades en contrapoisición a los urbanos. Un escenario es la inclusión de “ambito” como variable para la estratificación y otro escenario es que se quieran realizar inferencias para cada ámbito. En este último caso se dice que los diferentes ámbitos son dominios de estimación de la muestra.

Cuando los estratos con los cuales se diseñan las muestras tienen una cantidad de casos similares la distinción con los dominios se vuelve algo ociosa. En cambio, cuando los estratos tienen diferentes números de casos (p.e. Urbano vs. Rural Agrupado) y luego se desea realizar estimaciones para todos los estratos, es importante la utilidad de la distinción. La razón es que un muestreo estratificado proporcional ayudará poco para tener buenas estimaciones de los dominos pequeños (p.e. Rural Agrupado). En esos casos puede ser preferible un muestreo estratificado con asignación no proporcional óptima (Neyman 1934).

6.1.3 Evaluación actual de la muestra usada en 2024

Desde el momento en que se diseñó la muestra (2023), la población de estudiantes y establecimientos fue cambiando. En especial, es notorio el aumento de establecimientos con jornada completa en los últimos años. Estos cambios poblacionales pueden sugerir dudas acerca de la adecuación de una muestra que fue diseñada para representar a una población con otras características. A pesar de estos supuestos razonables, la muestra actual no parece —al menos en lo que respecta a los establecimientos— haber quedado desfasada para captar el incremento de la jornada completa. Más en particular, se observa una pequeña sobrerepresentación de los establecimientos con jornada completa en esta primera etapa de la muestra. Esto puede deberse a que la expansión de la jornada completa se dío principalmente en establecimientos con matrícula no muy grandes que es justamente el tipo de establecimeintos en donde la muestra anterior parecía tener más casos. A continuación, en la Tabla 6.2, se comparan parámetros poblacionales de los establecimientos con las respectivas estimaciones de la muestra.

Tabla 6.2: Comparación parámetros poblacionales de establecimientos vs muestra 2024

Variable	Población Total (N = 5884)	Muestra 2024(n = 669)
Variable	N = 5.884¹	N = 669¹
jornada_completa
NO	4.757 (81%)	493 (74%)
SI	1.127 (19%)	176 (26%)
sector
Estatal	4.189 (71%)	487 (73%)
Privado	1.695 (29%)	182 (27%)
ambito
Rural Agrupado	372 (6,3%)	77 (12%)
Rural Disperso	1.064 (18%)	133 (20%)
Urbano	4.448 (76%)	459 (69%)
matricula_inicial_2025	256 (82 – 429)	234 (75 – 413)
Desconocido	10
auh_pct	32 (13 – 50)	32 (14 – 50)
Desconocido	48	4
¹ n (%); Mediana (Q1 – Q3)

6.2 Muestra 2025

Teniendo en mente las características destacadas de la muestra anterior, ahora vamos a pasar a describir los objetivos de la muestra de 2025. En general se conservan muchos de ellos aunque también se agregan otros. Esto hace que, en términos de las técnicas empleadas para llegar a esos objetivos, se exceda el léxico clásico de la estratificación y la conglomeración. Los objetivos son:

Incluir los mismos criterios (actualizados a valores de 2025) que anteriormente se incluyeron en la construcción de los estratos para la construcción de una muestra balanceada. Esto son:

a) Sector (Estatal/Privado)

b) Porcentaje de estudiantes con AUH

c) Presencia de jornada completa

d) Ámbito

La idea de estos es que la muestra (de estudiantes y no de establecimientos) se acerque a los valores de tendencia central de esas variables. En otras palabras, que la muestra se encuentra balanceada en un punto óptimo que reduzca las distancias con las diferentes medidas de tendencia central de las variables anteriores.
Dado que algunas variables numéricas se encuentran disponibles como marco muestral para cada establecimeinto también se va a implementar una muestra (balanceada y) bien distribuida. En otras palabras, el objetivo es también exigir una convergencia con la distribución (esto es, no solo con sus valores de tendencia central) de las siguientes variables:

a) Latitud

b) Longitud

c) Porcentaje de AUH
En términos de las probabilidades de inclusión se esperan cumplir con las siguientes restricciones:

3.1. Otorgarle una mayor probabilidad de entrar a la primera etapa a los establecimientos que entraron en la muestra anterior. La idea es hacer un diseño compatible con una muestra tipo panel que se renueve (aproximadamente) por cuartos en cada edición. De esta manera, ningun establecimiento estaría más de 4 años seguidos y, de manera complementaria, el cuarto que se renueva permitiría ajustar la muestra a los cambios poblacionales sucedidos en el último año.

3.2. Otorgarle una probabilidad de entrar en la primera etapa a los establecimientos en función del tamaño de la matrícula.

3.3. Otorgarle una probabilidad de entrar en la segunda etapa a las secciones en función del tamaño de las mismas.

El punto 3.2 y el punto 3.3 merecen algo más de justificación porque pueden parecer contraintuitivos. En efecto, que en la primera etapa los establecimientos sean seleccionados en función del tamaño de la matrícula permite que, para la segunda etapa de la muestra, se pueda tener una regla simple como la asignación de un número fijo de estudiantes para cada establecimiento. Esto, además, permite (en ausencia de problemas de no-respuesta) hacer análisis con una muestra autoponderada. Más concretamente se aspira a registrar 10 estudiantes de cada establecimiento.

En los establecimientos en donde haya más de una sección, se puede armar un orden de prioridad entre las secciones disponibles y quedarse, en principio, solo con la que mayor prioridad obtenga. Previamente se puede generar un número para cada caso/establecimiento seleccionado que ordene a los establecimientos en función de algún criterio (p.e. matrícula). Algunos establecimientos obtendran un número par y otros tendrán uno impar. En este sentido, una vez sorteada la sección, se usa el valor del número anterior para indicar el modo de selección de los 10 estudiantes. Si ese establecimiento posee un número par, se elige a los primeros 10 estudiantes. Si ese establecimeinto posee un número impar, se elige los últimos 10 estudiantes. Si la sección seleccionada se agota sin llegar a los 10 casos se pasa a la sección siguiente en el orden de prioridad siguiendo luego el mismo criterio de selección de los estudiantes que en la sección anterior.

De este modo se tiene una regla no arbitraria (en el sentido que no decide el docente o el establecimiento qué caso cargar), la misma parece ser probabilística y, de manera derivada, permite trabajar (en ausencia de problemas de no-respuesta) con los datos sin ponderar.

[1] 676

6.3 Primera Etapa

Teniendo presente las restricciones anteriores se realizó una primera etapa de la muestra a nivel de establecimientos. Se recuerda que la muestra aspira a ser una muestra de estudiantes más que de establecimientos por lo que algunas desviaciones en esta etapa son más esperables que otras. En particular, es esperable que la media de la matrícula de los establecimientos seleccionados sea mayor a la media de la matrícula de la población de establecimientos. Algunos de los resultados, principalmente en cuanto a valores de tendencia central, se pueden ver en la Tabla 6.3.

Tabla 6.3: Comparación parámetros poblacionales de establecimientos vs muestra 2025

Variable	Población Total (N = 5836)	Muestra 2025(n = 675)
Variable	N = 5.836¹	N = 675¹
sector
Estatal	4.157 (71%)	438 (65%)
Privado	1.679 (29%)	237 (35%)
ambito
Rural Agrupado	371 (6,4%)	23 (3,4%)
Rural Disperso	1.039 (18%)	20 (3,0%)
Urbano	4.426 (76%)	632 (94%)
matricula_inicial_2025	257 (85 – 430)	390 (268 – 553)
jornada_completa
NO	4.711 (81%)	572 (85%)
SI	1.125 (19%)	103 (15%)
latitud	-34,77 (-35,81 – -34,59)	-34,72 (-34,92 – -34,56)
longitud	-58,69 (-59,78 – -58,40)	-58,61 (-58,82 – -58,38)
auh_pct	32 (13 – 50)	37 (16 – 53)
muestra_2024
SI	665 (100%)	433 (100%)
Desconocido	5.171	242
¹ n (%); Mediana (Q1 – Q3)

6.4 Distribución a nivel de establecimientos

Dado que la muestra no es solo balanceada en sus medidas de tendencia central, sino también en la distribución de otras covariables ahora veremos justamente como la distribución de la muestra difiere, en las variables latitud, longitud (Figura 6.2) y porcentaje de AUH (Figura 6.4), de la distribución de las mismas a nivel del marco muestral.

Figura 6.2: Distribución de la población de los establecimientos (puntos negros) y de la muestra 2025 (puntos azules)

Figura 6.3: Mapa de calor sobre la distribución de los casos. Población y muestra 2025.

6.5 Simulación a nivel de estudiantes

Dado que en el actual diseño se emplea una muestra en donde la probabilidad de inclusión deviene en parte del tamaño del establecimiento es esperable, como se anticipó más arriba, encontrar diferencias entre las tendencias centrales de algunas variables consideradas importantes entre la muestra de establecimientos y la población de los mismos. Por esta razón, partiendo del marco muestral de los establecimientos vamos a crear una población sintética de estudiantes en función de la matrícula de cada uno de ellos. Luego vamos a comparar esa población con otra población de estudiantes asumiendo que se seleccionan “x” estudiantes por cada establecimiento seleccionado (10 en este caso).

Tabla 6.4: Comparación entre poblaciónes sintéticas de estudiantes

Variable	Muestra de Estudiantes (k=10) N = 6.750¹	Población de Estudiantes N = 1.666.253¹
sector
Estatal	4.380 (65%)	1.081.271 (65%)
Privado	2.370 (35%)	584.982 (35%)
ambito
Rural Agrupado	230 (3,4%)	22.877 (1,4%)
Rural Disperso	200 (3,0%)	21.001 (1,3%)
Urbano	6.320 (94%)	1.622.375 (97%)
matricula_inicial_2025	390 (268 – 553)	452 (313 – 624)
jornada_completa
NO	5.720 (85%)	1.485.455 (89%)
SI	1.030 (15%)	180.798 (11%)
latitud	-34,72 (-34,92 – -34,56)	-34,72 (-34,88 – -34,57)
longitud	-58,61 (-58,82 – -58,38)	-58,59 (-58,79 – -58,36)
auh_pct	37 (16 – 53)	38 (18 – 54)
muestra_2024
SI	4.330 (100%)	182.586 (100%)
Desconocido	2.420	1.483.667
¹ n (%); Mediana (Q1 – Q3)

Cabe destacar que si se realiza algún test estadístico entre ambas distribuciones (p.e. Kolmogorov-Smirnov) se observa un aceptable ajuste entre ambas distribuciones lo que sugiere que la muestra logra “copiar” aceptablemente la distribución (y no solo la tendencia central) poblacional de la variable posesión de AUH.

6.6 Segunda etapa

En esta segunda etapa aparece una cuestión particular a considerar. Se trata del tamaño de las secciones de los establecimientos como algo diferente a la cantidad de secciones del mismo. Con respecto a la muestra de 2024, esto es un problema algo nuevo porque el diseño de la muestra 2025 aspira a, efectivamente, seleccionar algunas secciones dentro de los establecimientos en vez de ir a todas.

Antes vimos que si la probabilidad de inclusión de un establecimiento en la primera etapa de la muestra depende del tamaño de la matrícula eso permite que la cantidad de estudiantes a seleccionar en la segunda etapa pueda ser única para todos los establecimientos. Dado que en la mayoría de los establecimientos existe más de una sección para cada año (3^ro y 6^to) nos encontramos con el problema de como seleccionar a las propias secciones. Expresado en léxico muestral, ahora las secciones se convierten en una segunda etapa de selección. En este sentido, el problema del tamaño de los establecimientos en la primera etapa se traduce al problema del tamaño de cada sección en la segunda etapa. Si solo se realiza un sorteo por azar simple dentro de cada establecimiento para seleccionar a las secciones, los estudiantes de las secciones más grandes van a tener una menor chance de salir en la muestra que los estudiantes de secciones chicas. En funcion de esto podría ser pertinente que, a la hora de realizar el sorteo de las secciones, se incluya en la probabilidad de inclusión el tamaño de la sección (Punto 3.3). Para tener de referencia, los establecimientos seleccionados en 2025 poseen, en promedio, más secciones que los seleccionados en 2024. Si se cuenta los diferentes turnos ahora hay que seleccionar entre 2,8 secciones en cada establecimiento para cada año. En cambio, este valor para la muestra de 2024 fue de alrededor de 2,2 secciones por cada establecimiento/año seleccionado en su respectiva primera etapa.

Sin embargo, el problema no se trata solo de que antes se iba a todas las secciones entre las pocas del establecimiento elegido y ahora a se vaya a algunas entre muchas. Un problema adicional es el siguiente. Supongamos que se tenga en mente la hipótesis que la relación en cuanto al ratio estudiantes/docente sea importante con respecto a los aprendizajes. En ese caso, una regla simple como la de “seleccione siempre a la sección más grande del establecimiento” sería, en presencia de la hipótesis anterior, una regla que, artificialmente, bajaría el promedio de las notas PEB por cenirse a las secciones en donde ese ratio es mayor. La regla anterior se podría mantener si, dentro de cada establecimiento y dentro de cada año seleccionado, hubiera muy poca diferencia de tamaño entre sus diferentes secciones. Esta hipótesis, si bien razonable dentro de ciertos parámetros, es extrema. Por otro lado, asumir que sea usual la situación en donde un establecimiento tenga 3 secciones en 6^to grado, de las cuales una tenga un tamaño de 10 estudiantes, otra de 20 y otra de 30, también parece ser algo extremo. Podría ser algo más probable esta situación en los establecimientos de jornada simple en donde habría que seleccionar secciones tanto de la tarde como de la mañana. También puede ser algo más probable de encontrarse esta situación en 6^to más que en 3^ro. Sin embargo, aun asumiendo que estos últimos casos pueden ser más probables en jornada simple y en 6^to es difícil anticipar su peso en el conjunto de las secciones.

Lo anterior puede analizarce de modo empírico de dos modos diferentes. Primero analizaremos la distribución, medida a través de la desviación estándar, de todas las secciones con respecto a su respectiva media de tamaño para su mismo establecimiento y año. Esto nos va a permitir captar la heterogeneridad en función de la misma unidad que se utiliza para calcular la media que, en este caso, es la cantidad de estudiantes. En la Figura 6.6 se observa como, si bien con una distribución normal, existen divergencias con respecto a la media. Esto asegura que, si se seleccionara siempre a las secciones más grandes del tandem establecimiento/año, efectivamente la muestra estaría compuesta casi exclusivamente por secciones que se encuentran por encima de su respectiva media. Claro está que la mayoría de ellas estaría compuesta por secciones que sobrepasan por pocos estudiantes (2 estudiantes) a su respectiva media.

Figura 6.6: Diferencias de tamaño de las secciones para igual establecimiento y año. Media estandarizada en 0 y desvío estándar en cantidad de estudiantes.

De todos modos, para evitar que la muestra de secciones se pueble exclusivamente de las secciones más mayoritarias, más que implementar la regla simple de “seleccionar la sección más grande” vamos a implementar, como se había anticipado anteriormente, un criterio probabilístico en función del tamaño de la sección. De este modo, a nivel agregado sí se van a seleccionar con mayor probabilidad las secciones más grandes, pero también, en una menor probabilidad, se van a incluir como primera opción algunas secciones que no cumplan ese criterio.

En la Tabla 6.5 puede observarse como al tiempo que se respeta la tendencia central del tamaño de las secciones, la mayoría de las veces (60%) se ha seleccionado a la sección más numerosa aunque, justamente, no siempre. De este modo se respeta el principio que las secciones más numerosas sean más seleccionadas (y de ese modo se equiparan las probabilidades de los estudiantes que están en ellas) pero también se seleccionan secciones no numerosas para de ese modo evitar el sesgo de seleccionar las secciones con mayor ratio de estudiantes/docentes.

Tabla 6.5: Población y muestra de secciones

Característica	NO N = 2.384¹	SI N = 1.346¹
tamaño	26 (6)}	26 (7)}
anio
3	1.196 (50%)	673 (50%)
6	1.188 (50%)	673 (50%)
seccion_mas_grande
NO	2.384 (100%)	534 (40%)
SI	0 (0%)	812 (60%)
¹ Media (DE)}; n (%)

Cuanto (o no) esta regla no probabilística es un sesgo en la muestra es una cuestión empírica. Una manera de generar un testeo podría ser la comparación de las medias porcentuales de la poseción de AUH, a nivel de sección y establecimiento, de los primeros 5 estudiantes con la media del respectivo grupo conformado por la sección y el establecimiento. Esto se puede hacer partiendo de una base nominal de estudiante y ordenando los apellidos por orden alfábetico para cada sección y establecimiento. En el primer caso, se calcula la media de los 5 primeros de cada grupo y en la segunda se incluyen a todos los estudiantes de cada grupo. Al realizar el cálculo a nivel de cada sección no solo se puede testear si ambas medias coinciden, sino que también se puede calcular su respectivo desvío.↩︎

--- title: "Muestra PEB 2025" format: html --- Las pruebas PEB (Pruebas Escolares Bonaerenses) son un programa orientado a mejorar la enseñanza y el aprendizaje de Matemática y Prácticas del Lenguaje en el nivel Primario, tanto en el sector estatal como en el privado, que se puso en marcha en 2022 en la Provincia de Buenos Aires [@subsecretaría2025, pág. 5]. Desde el punto de vista metodológico que tiene que ver con cuestiones muestrales es pertinente destacar que estas pruebas aspiran a ser realizadas al total de los estudiantes aunque luego se registran sus resultados a través de dos componentes diferentes. Un primer componente censal aunque con datos agregados y un segundo componente muestral con datos nominales. Lo que se detalla a continuación es el proceso de selección muestral de este segundo componente nominal. Primero lo haremos haciendo referencia a la muestra diseñada en 2023 y luego para la de 2025. ## Muestra 2023 Para tener como referencia vamos a intentar representar el método de selección de la muestra que se utiliza desde 2023. Primero la vamos a intentar describir y luego clasificar. ### Descripción Un resumen descriptivo de la misma es la siguiente afirmación: "En paralelo, se relevaron resultados por estudiante en una muestra probabilística de 680 escuelas. Para cada institución, se solicitó información sobre las respuestas a las actividades de 5 estudiantes seleccionados al azar por las y los docentes de cada sección" [@subsecretaría2024, pág. 18]. Más en detalle también se afirma "La construcción de la muestra siguió un diseño probabilístico, con selección sistemática de las unidades de muestreo. Previo a la selección, en el marco muestral (nómina de establecimientos de nivel primario) se agruparon los establecimientos en estratos constituidos por el cruce de las variables “dependencia de los establecimientos educativos” (provincial y resto-incluyendo en este último grupo a los establecimientos privados, municipales y nacionales), “porcentaje de estudiantes con AUH”, “presencia o no de jornada completa” y “ámbito”. Luego, se ordenaron los establecimientos por estrato, y se realizó una selección sistemática siguiendo la fracción de muestreo correspondiente" [@subsecretaría2024, pág. 18]. La descripción anterior alcanzaría para una descricpión de la selección de establecimientos. Pero todavía falta el paso que describe la selección de los estudiantes: "Para cada sección de los años de estudio evaluados, se solicitó la selección de las/los primeros o últimos estudiantes de la lista (por orden alfabético) que hayan realizado la prueba. En secciones pequeñas (de hasta 10 estudiantes), se requirió la carga de información de todas y todos los estudiantes" [@subsecretaría2024, pág. 18]. ::: callout-caution No hace falta aclarar que intentar reconstruir una muestra a partir de descripciones en prosa suele ser una actividad arriesgada. Esto se debe a que puede haber confusiones entre los objetivos de la muestra, las acciones que se hicieron en el momento del diseño, las que efectivamente se hicieron en campo y, algo no menos importante, los términos que se usan para describir todo lo anterior. Hay veces que, aunque parezca paradógico, para alguien que tiene que clasificar a una muestra, es preferible que le digan paso a paso que hicieron en un lenguaje cercano al sentido común sin usar términos propios de la jerga del muestreo. La razón es que en muestreo hay términos que tienen un significado particular que no es el mismo que tienen en otras disciplinas no tan lejanas. Por ejemplo, la palabra "estratificación" tanto en ciencias sociales con en el lenguaje común, suele tener una connotación ordinal, pero en muestreo tiene una connotación muy particular y no necesariamente ordinal. Del mismo modo, alguien con experiencia en análisis de datos entiende por "análisis de clústers (o conglomerados)" algo muy diferente a lo que un muestrista entiende cuando afirma que se realizó un "diseño muestral por conglomerados". Lo anterior se complica porque es usual que en los diseños muestrales de las ciencias sociales se hagan diseños polietápicos lo que hace que, por ejemplo, circulen afirmaciones como "muestreo estratificado por conglomerados". En este caso es posible suponer más de una manera de entender esta afirmación y, *a posteriori*, más de una manera de haber diseñado o ejecutado esa muestra. Por ejemplo, ¿Se ejecutó primero en campo la parte de los conglomerados y luego se seleccionó por estratos? ¿O se hizo al revés? ¿El orden escrito se refiere a la "ejecución" de los pasos o refiere que momento se "diseñó" cada parte del diseño? ::: ### Clasificación En función de la bibliografía/léxico usado en las secciones anteriores se podría realizar los siguientes comentarios sobre las afirmaciones anteriores: Antes que nada se observa una particularidad importante. En las PEB efectivamente se va a (casi) todas las unidades de la población de estudiantes. La muestra es solo para ver a cuáles de ellos se "registra" de forma individual. Esto es algo particular porque muchas de las técnicas de muestreo están pensadas para justamente evitar ir a todas las unidades de la población o, en su defecto, para a que a una determinada subpoblación (muestra) se le pueda hacer más preguntas, mediciones, ensayos, etc. que hacen más extensa y profunda y, por lo general, más onerosa la investigación. En lo que acá respecta, lo oneroso no parece la prueba en sí, sino su posterior carga nominal. Esto hace (re)pensar cuál es la población de la muestra: ¿Es la población de estudiantes de todo el nivel primario? ¿Es la población de estudiantes de algunos años específicos de nivel primario (p.e. 3 y 6) a los cuales se les piensa realizar las PEB? ¿Es la población de estudiantes de algunos años específicos de nivel primario (p.e. 3 y 6) a los que efectivamente se les realizó las PEB? Cabe destacar que en una muestra típica solo se podría decidir entre las primeras dos poblaciones porque, como se comentó arriba, muchas veces uno de los objetivos de la muestra es evitar "ir" o "medir" a cada componente de la población. Sin embargo, en la PEB es posible también decidir que la tercera población sea la más idónea. En efecto, más allá de los posibles problemas de conseguir datos de esa población es claro que no tiene mucho sentido seleccionar estudiantes o secciones que no pertenecen a los establecimientos del "censo" previo. Dejando estas cuestiones referidas sobre qué población se debería hacer la muestra, el diseño muestral anterior se podría **clasificar** del siguiente modo: - Un diseño **polietápico**. En una primera etapa se seleccionan a los establecimientos y luego, en una segunda etapa, se seleccionan a los estudiantes de ese establecimiento a través de sus respectivas secciones. Se suele afirmar que los establecimientos son la unidad de selección primaria y los estudiantes son la unidad de selección secundaria y final. Es importante destacar que los establecimientos cumplen la función de ser un **conglomerado** en este diseño. En otras palabras, cada establecimiento es como un racimo (*cluster*) en donde se agrupan secciones y estudiantes. Por cuestiones logísticas es útil seleccionar primero a los establecimientos y luego a los estudiantes que están en su interior. En esta descripción no decimos nada sobre las secciones porque en las descripciones de arriba parecería que ellas no se "seleccionan" aunque más adelante diremos algo sobre esto. - En la primera etapa se hace un diseño muestral **estratificado** de establecimientos con asignación proporcional mediante un método de selección sistemático. Este diseño primero crea una serie de categorías discretas en las que se presume que la varianza de la/s variables a estimar son algo menor a la varianza promedio de toda la población. Esto permite una ganancia estadística que se puede usar tanto para aumentar la precisión de la estimación o para reducir la cantidad de casos de la muestra. Cuanto se logre esto último es una cuestión que depende de la asociación de las variables seleccionadas para construir los estratos con las variables a estimar. Lo que también (parcialmente) asegura este diseño es que se incluyan en la muestra casos de estratos chicos en tamaño que, mediante un diseño por azar simple, podrían quedar subrepresentados en la muestra. - Decimos que la **estratificación es de una asignación proporcional** porque la cantidad de casos a seleccionar para cada estrato estará en línea con los tamaños de estratos (no con los tamaños de los establecimientos). Esta muestra, al menos en este paso, intenta replicar la distribución porcentual de los estratos. - Dentro de cada estrato la selección es **sistemática**, y por lo tanto, probabilística. - En la segunda etapa se aplica una regla que apunta a resolver dos cuestiones diferentes. A "cuantos" y "a quienes" se le van a cargar los datos nominales. Respecto al "cuantos" parece que se resuelve con la regla de cargar todos los casos para las secciones de hasta 10 estudiantes y 5 para el resto. Aunque quizá pase más desapercibido, en esta seguda etapa las secciones cumplen la función de estrato, por lo que la segunda etapa se podría decir que se trata de una selección de estudiantes **estratificada** por las secciones. En cambio, el "a quienes" se resuelve mediante una regla que selecciona a los "primeros o últimos estudiantes de la lista (por orden alfabético)". Esta regla tiene el beneficio de ser simple (siendo esto un punto a favor) aunque, en principio, es **no probabilística** en el sentido que no se trata de selección por azar simple ni sistemática, etc. Su carácter no probabilísitica, no asegura que sea sesgada. Si la **clasificación** anterior es correcta se podrían hacer también los siguientes comentarios sobre esa muestra: La afirmación "Para cada institución, se solicitó información sobre las respuestas a las actividades de 5 estudiantes seleccionados al azar por las y los docentes de cada sección" no parece coincidir con lo realizado. Lo que la muestra selecciona al azar son "establecimientos" pero no "estudiantes". La regla sobre la discrecionalidad para que el docente elija los 5 primeros o los 5 últimos induce una dosis de arbitrariedad. La traducción de sí esto en un sesgo (o no) es una cuestión que, de forma aproximada, se puede resolver de forma empírica[^muestra_2025-1]. Por otro lado, si se asume que cada docente eligirá siempre al "mejor" grupo (comparando a los 5 primeros versus los 5 últimos) esto no generará un mayor problema en las comparaciónes entre establecimientos, secciones, etc. pero, posiblemente, sesge todos los resultados nominales de las pruebas hacia "arriba". En principio, esto se podría testear empíricamente comparando las medias de las notas muestrales de cada sección/establecimiento con las medias de las respectivas notas censales de las mismas secciones/establecimientos que entraron en la muestra. [^muestra_2025-1]: Cuanto (o no) esta regla no probabilística es un sesgo en la muestra es una cuestión empírica. Una manera de generar un testeo podría ser la comparación de las medias porcentuales de la poseción de AUH, a nivel de sección y establecimiento, de los primeros 5 estudiantes con la media del respectivo grupo conformado por la sección y el establecimiento. Esto se puede hacer partiendo de una base nominal de estudiante y ordenando los apellidos por orden alfábetico para cada sección y establecimiento. En el primer caso, se calcula la media de los 5 primeros de cada grupo y en la segunda se incluyen a todos los estudiantes de cada grupo. Al realizar el cálculo a nivel de cada sección no solo se puede testear si ambas medias coinciden, sino que también se puede calcular su respectivo desvío. En este diseño, al menos en su primera etapa, los estudiantes de los establecimientos más grandes tienen menores chances de salir en la muestra. Si esto no se corrige mediante ponderadores (*ex-ante*) o calibradores (*ex-post*) explícitos esto podría generar un sesgo en los análisis de los resultados. En otras palabras, si cada establecimiento dentro de un estrato tuvo la misma probabilidad de ser elegido de forma independientemente de su matrícula, entonces para esa primera etapa **la probabilidad final de selección para un estudiante no es constante**. Algo de esto se corrige en la segunda etapa. Acá influye que la regla de cargar los datos sea por **sección** y no por **establecimiento**. Esta regla es la que legitima entender a la muestra anterior como una muestra polietápica en donde en la segunda etapa se usa un diseño estratificado por sección. A primera vista las secciones podrían ser consideradas como conglomerados en donde seleccionar estudiantes de su interior asumiendo alguna ventaja logística si se selecciona solo una de ellas, por ejemplo, por azar simple. Sin embargo, la acción anterior podría ser conveniente si se asume que las secciones (de un mismo establecimiento) poseen una similar heterogeneidad con respecto a al variable de estudio (p.e. las notas en las PEB). De todos modos, dada la peculariedad de las PEB, la ventaja logística residiría en que hay menos docentes/administrativos que contactar y, no menos importante, menos por controlar después. Acá no habría nada de ventaja logísitica, por ejemplo, desde el punto de vista geográfico. La razón es que, por un lado, "ya se fue" a evaluar a cada estudiante y ahora quedaría decidir los datos de quien se registra de modo nominal. Si se pasa al otro extremo de seleccionar a todas las secciones del establecimiento elegido (como efectivamente se hizo en la muestra 2024) no hay tal etapa de "selección" a nivel de las secciones. En ese caso las etapas de selección de la muestra son a nivel de los establecimientos y a nivel de los estudiantes, pasando por alto el nivel de las secciones. En efecto, la acción de ir a todas las secciones es *como si* se hubiera tenido la intención de estratificar debido, quizás, a la sospecha de una posible escasa similitud entre las secciones de un mismo establecimiento. Siguiendo este modo de razonar, el investigador se asegura que los estudiantes sean seleccionados a través de diferentes secciones cumpliendo el deseo de un muestrista que estratifica para que luego se seleccionen los casos dentro de cada estrato. Hace unas líneas se dijo "*como si*" hubiera tenido la intención de estratificar porque, estrictamente, no sabemos si se estratificó por la razón de reducir el error de la estimación (lo usual en esta técnica) o por si, por el contrario y/o de forma complementaria, por la consecuencia que trae usar este método en las probabilidades de selección de los estudiantes de los establecimientos con mayor matrícula. De esta manera, a pesar de no ser la típica consecuencia buscada de la estratificación, aquellos establecimientos con mayor cantidad de secciones (y en general con mayor matrícula) pueden tener una mayor chances de incluir a sus estudiantes en la muestra. En efecto, en la @fig-matricula_seccion se observa una relación estrecha entre el tamaño de la matrícula y la cantidad de secciones del establecimiento. ```{r} #| label: librerias_muestra_2025 library(here) library(readxl) library(janitor) library(tidyverse) library(gt) library(sf) library(tmap) library(sampling) library(gtsummary) library(infer) library(patchwork) library(srvyr) library(survey) library(cardx) library(downloadthis) library(polars) i_am("muestra_2025.qmd") theme_gtsummary_language( language = "es", decimal.mark = ",", big.mark = ".") ``` ```{r} #| label: fig-matricula_seccion #| fig-cap: Relación entre el tamaño de la matrícula y la cantidad de secciones de los establecimientos tb_establecimientos_2025 = read_xlsx(here("Inputs", "Nómina de establecimientos 20250720.xlsx")) |> clean_names() tb_establecimientos_primaria_2025 = tb_establecimientos_2025 |> filter(nivel_modalidad == "Primaria") tb_estab_matri_seccion = tb_establecimientos_2025 |> select(matricula_inicial_2025, secciones_inicial_2025) # 1. Cálculo un modelo lineal para obtener los parámetros modelo = lm(matricula_inicial_2025 ~ secciones_inicial_2025, data = tb_estab_matri_seccion) coeficientes = coef(modelo) r_cuadrado = summary(modelo)$r.squared # Creación de la etiqueta con la ecuación eq_label = paste0("y = ", round(coeficientes[1], 2), " + ", round(coeficientes[2], 2), "x", "\n (R² = ", round(r_cuadrado, 3), ")") # 2. Generación del gráfico fig_matricula_seccion = ggplot(tb_establecimientos_primaria_2025, aes(x = secciones_inicial_2025, y = matricula_inicial_2025)) + geom_point(alpha = 0.4, color = "midnightblue") + # Adición de la línea de tendencia geom_smooth(method = "lm", color = "darkred", fill = "lightgray", se = TRUE) + # Restricción viaul del eje Y a 3000 unidades coord_cartesian(ylim = c(0, 3000), xlim = c(0, 75)) + # Inserción de los parámetros en el cuerpo del gráfico annotate("text", x = Inf, y = -Inf, label = eq_label, hjust = 1.1, vjust = -1.1, size = 4, fontface = "italic", family = "serif") + labs( #title = "Análisis de Regresión: Matrícula vs. Secciones", subtitle = "Ciclo Lectivo 2025", x = "Cantidad de secciones", y = "Matrícula", caption = "Fuente: Elaboración propia basada en nómina de establecimientos" ) + theme_minimal() + theme(text = element_text(family = "serif")) fig_matricula_seccion ``` Sin embargo, hacer un "censo" para las secciones pequeñas hace que se aumente la chance de seleccionar estudiantes de secciones pequeñas que, en general, pertenecen a establecimientos con una menor matrícula. A continuación se muestra en la @tbl-matricula_size_seccion como las secciones de hasta 10 estudiantes suelen pertenecen a establecimientos con una media y una mediana de la matrícula muy por debajo de la que poseen las secciones más grandes. ```{r} #| label: tbl-matricula_size_seccion #| tbl-cap: Comparación de la media y mediana de los establecimientos en función del tamaño de la sección (+- 10 estudiantes) # Extraigo la matrícula de los establecimientos. Voy a buscar a todos para luego poder hacer join con las secciones tb_establecimientos_matricula_2025 = tb_establecimientos_2025 |> clean_names() |> select(clave, matricula_inicial_2025, nivel_modalidad) # Agrego informacion de secciones tb_secciones_2025 = read_xlsx(here("Inputs", "SeccionesdetalladasRA2025.xlsx")) |> clean_names() |> mutate(total = as.double(total)) tbl_secciones_primaria_2025 = tb_secciones_2025 |> select(clave, total) |> left_join(tb_establecimientos_matricula_2025, by = "clave") |> filter(nivel_modalidad == "Primaria") |> mutate(secciones_10 = if_else( total <= 10, "Chicas", "No chica")) |> select(secciones_10, matricula_inicial_2025) |> tbl_summary(by = secciones_10, statistic = list( matricula_inicial_2025 ~ "{mean} \n {median}" ), digits = list(matricula_inicial_2025 ~ c(1, 1)), label = list(matricula_inicial_2025 ~ "Matrícula Inicial 2025") ) |> modify_header(label ~ "**Variable de Matrícula**") |> bold_labels() tbl_secciones_primaria_2025 ``` En cualquier caso, las reglas identificadas de la selección de los estudiantes parece tener efectos contrapuestos y es algo difícil de estimar el impacto de cada uno por separado. En particular es difícil de construir ponderadores que anticipen (*ex-ante*) el sesgo de estas decisiones. Claro que siempre se podrá recurrir al recurso de los calibradores (*ex-post*) para usarlos al momento del análisis, aunque parece una estrategia algo arriesgada. Una opción que se puede tener cuenta en estos casos es la inclusión del tamaño de la matrícula en la probabilidad de seleccionar al establecimiento en la primera etapa. Esta estrategia puede tener más de un beneficio. Uno de ellos es que permite una regla simple para la segunda etapa. En efecto, se podría registrar una misma cantidad de estudiantes por establecimiento de forma independiente a la cantidad de secciones. Esto tiene el beneficio adicional que, siguiendo ese diseño, la muestra se vuelve autoponderada lo que facilita los análisis posteriores. Claro está que serán necesario la construcción de calibradores que corrijan la no-respuesta, pero esto es un escenario cualitativamente diferente al descripto en el párrafo anterior. En este contexto, si la muestra no tiene, *a posteriori*, problemas de no-respuesta, no sería necesario la construcción de calibradores. Sin entrar en detalles (porque en parte se entremezclan un lenguaje de intenciones u objetivos con un lenguaje de métodos) se podría decir que se podrían aprovechar algunas de las características que ofrece el método conocido como muestreo proporcional al tamaño (@sec-pps). Por último algunos comentarios van en línea sobre el espectro de inferencias posibles con la muestra 2023. En la biblografía sobre muestreo se suele hacer una distinción clásica entre los **estratos** y los **dominios** de estimación (@sec-estratificado). Los primeros se suelen usar en el diseño (*ex-ante*) con la presunción de que en la población existen "clases" discretas que son parecidas en su interior y diferentes entre sí. Si esto es así, su inclusión en el diseño trae mejoras en la precisión en la estimación. En cambio, los dominios tienen que ver con los objetivos o intenciones posteriores del investigador para con la muestra. Por ejemplo, aun el contexto en que se tenga la hipótesis que los establecimientos y los estudiantes rurales poseen fuertes particularidades en contrapoisición a los urbanos. Un escenario es la inclusión de "ambito" como variable para la estratificación y otro escenario es que se quieran realizar inferencias para cada ámbito. En este último caso se dice que los diferentes ámbitos son dominios de estimación de la muestra. Cuando los estratos con los cuales se diseñan las muestras tienen una cantidad de casos similares la distinción con los dominios se vuelve algo ociosa. En cambio, cuando los estratos tienen diferentes números de casos (p.e. Urbano vs. Rural Agrupado) y luego se desea realizar estimaciones para todos los estratos, es importante la utilidad de la distinción. La razón es que un muestreo estratificado proporcional ayudará poco para tener buenas estimaciones de los dominos pequeños (p.e. Rural Agrupado). En esos casos puede ser preferible un muestreo estratificado con asignación no proporcional óptima [@neyman1934]. ### Evaluación actual de la muestra usada en 2024 Desde el momento en que se diseñó la muestra (2023), la población de estudiantes y establecimientos fue cambiando. En especial, es notorio el aumento de establecimientos con jornada completa en los últimos años. Estos cambios poblacionales pueden sugerir dudas acerca de la adecuación de una muestra que fue diseñada para representar a una población con otras características. A pesar de estos supuestos razonables, la muestra actual no parece —al menos en lo que respecta a los establecimientos— haber quedado desfasada para captar el incremento de la jornada completa. Más en particular, se observa una pequeña sobrerepresentación de los establecimientos con jornada completa en esta primera etapa de la muestra. Esto puede deberse a que la expansión de la jornada completa se dío principalmente en establecimientos con matrícula no muy grandes que es justamente el tipo de establecimeintos en donde la muestra anterior parecía tener más casos. A continuación, en la @tbl-poblacion_muestra_2024, se comparan parámetros poblacionales de los establecimientos con las respectivas estimaciones de la muestra. ```{r} #| label: tb_muestra_2024 tb_muestra_2024 = read_xlsx(here("Inputs", "Muestra_PrimPE_2023 (diseño)_vf.xlsx"), sheet = "Muestra vf") |> clean_names() |> select(clave) |> mutate(muestra_2024 = "SI") ``` ```{r} #| label: muestra_2023 #| eval: false levels_region = c("01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12", "13", "14", "15", "16", "17", "18", "19", "20", "21", "22", "23", "24", "25") base = read_xlsx(here("Inputs", "base_escuelas_primaria.xlsx")) |> clean_names() |> mutate(ambito = as_factor(ambito), region = as_factor(region), region = fct_relevel(region, levels_region)) ``` ```{python} #| label: base_nominal_2025 #| eval: false # C:\Users\dquar\positron_projects\mis_estudiantes_geo\inputs\estudiantes import polars as pl from pyhere import here # Aca voy a buscar el archivo a otro proyecto porque pesa varios gigas mis_estudiantes_2025 =( pl.read_ipc("C:/Users/dquar/positron_projects/mis_estudiantes_geo/inputs/estudiantes/base_SAT_2025.ipc") .select([ pl.col("CLAVEESTAB"), pl.col("DESCRIPCION_PLANPROGRAMA"), pl.col("IDALUMNO"), pl.col("NIVEL"), pl.col("AÑO_ESTUDIO") ]) #.filter(pl.col("NIVEL") == "Nivel Primario") .with_columns( pl.col("IDALUMNO").cast(pl.Int64)) ) ``` ```{python} #| label: tb_AUH_2025 #| eval: false #tb_AUH_2025 = ( #mis_estudiantes_2025F # .filter(pl.col("DESCRIPCION_PLANPROGRAMA") == "ASIGNACION UNIVERSAL POR HIJO")) # AUH ANTO tb_AUH_2025_ANTO = ( pl.read_csv(here("Inputs", "AUH_por_idalumno.csv"), separator=';') .rename({"AUH": "AUH_ANTO"}) .join( mis_estudiantes_2025, on="IDALUMNO", how="left" ) .filter(pl.col("NIVEL")=="Nivel Primario") ) # Ahora tengo que agregar es tabla a mis_estudiantes mis_estudiantes_2025 = mis_estudiantes_2025.join( tb_AUH_2025_ANTO, on="IDALUMNO", how = "left" ) # Agregación para contar casos por establecimiento tb_AUH_establecimientos = ( mis_estudiantes_2025 .group_by("CLAVEESTAB") .agg( pl.col("AUH_ANTO").filter(pl.col("AUH_ANTO") == 1).count().alias("n_AUH"), ) .sort("n_AUH", descending=True) ) tb_AUH_establecimientos.write_csv( here("Inputs", "tb_AUH_establecimientos.csv") ) ``` ```{r} #| label: tb_jornada_completa_2025 # Voy a buscar tb_establecimientos_primaria_2025 y mejoro "jornada completa" tb_establecimientos_primaria_2025 = tb_establecimientos_primaria_2025 |> mutate(jornada_completa = if_else( str_detect(caracteristicas, "completa"), "SI","NO"), jornada_completa = if_else( is.na(jornada_completa), "NO", jornada_completa)) ``` ```{r} marco_muestra = tb_establecimientos_primaria_2025 |> select(clave, jornada_completa, nivel_modalidad, sector, ambito, matricula_inicial_2025, latitud, longitud) |> mutate(latitud = as.numeric(latitud), longitud = as.numeric(longitud)) #tb_AUH_establecimientos = read_csv(here("Inputs", "tb_AUH_establecimientos.csv")) |> #rename("clave" = "CLAVEESTAB", # "n_auh" = "n_AUH") # Este es el archivo enviado por Rosario tb_AUH_establecimientos = read_xlsx(here("Inputs", "escuelas_AUH_2025.xlsx")) |> rename("n_auh" = "con AUH") marco_muestra = marco_muestra |> left_join(tb_AUH_establecimientos, by = "clave") |> mutate(auh_pct = (n_auh*100)/matricula_inicial_2025, auh_pct = if_else(auh_pct > 100, 100, auh_pct)) |> left_join(tb_muestra_2024, by = "clave") ``` ```{r} #| label: tbl-poblacion_muestra_2024 #| tbl-cap: Comparación parámetros poblacionales de establecimientos vs muestra 2024 # 1. Generamos la tabla para la Población Total tbl_poblacion = marco_muestra |> select(jornada_completa, sector, ambito, matricula_inicial_2025, auh_pct) |> # Excluimos la columna de la muestra para no sesgar el resumen tbl_summary() |> modify_header(label = "**Variable**") # 2. Generamos la tabla exclusivamente para la Muestra tbl_muestra_2024 = marco_muestra |> filter(muestra_2024 == "SI") |> select(jornada_completa, sector, ambito, matricula_inicial_2025, auh_pct) |> tbl_summary() # 3. Fusionamos ambas tablas en una sola estructura comparativa tbl_comparativa = tbl_merge( tbls = list(tbl_poblacion, tbl_muestra_2024), tab_spanner = c("**Población Total (N = {N})**", "**Muestra 2024(n = {N})**") ) tbl_comparativa ``` ```{r} tbl_poblacion_jornada = marco_muestra |> select(jornada_completa, matricula_inicial_2025, sector, auh_pct) |> # Excluimos la columna de la muestra para no sesgar el resumen tbl_summary(by = jornada_completa) |> modify_header(label = "**Variable**") # 2. Generamos la tabla exclusivamente para la Muestra tbl_muestra_2024_jornada = marco_muestra |> filter(muestra_2024 == "SI") |> select(jornada_completa, matricula_inicial_2025, sector, auh_pct) |> tbl_summary(by = jornada_completa) # 3. Fusionamos ambas tablas en una sola estructura comparativa tbl_comparativa_jornada = tbl_merge( tbls = list(tbl_poblacion_jornada, tbl_muestra_2024_jornada), tab_spanner = c("**Población Total (N = {N})**", "**Muestra 2024(n = {N})**") ) # tbl_comparativa_jornada ``` ## Muestra 2025 Teniendo en mente las características destacadas de la muestra anterior, ahora vamos a pasar a describir los objetivos de la muestra de 2025. En general se conservan muchos de ellos aunque también se agregan otros. Esto hace que, en términos de las técnicas empleadas para llegar a esos objetivos, se exceda el léxico clásico de la estratificación y la conglomeración. Los objetivos son: 1. Incluir los mismos criterios (actualizados a valores de 2025) que anteriormente se incluyeron en la construcción de los estratos para la construcción de una muestra **balanceada**. Esto son: a\) Sector (Estatal/Privado) b\) Porcentaje de estudiantes con AUH c\) Presencia de jornada completa d\) Ámbito La idea de estos es que la muestra (de estudiantes y no de establecimientos) se acerque a los valores de tendencia central de esas variables. En otras palabras, que la muestra se encuentra balanceada en un punto óptimo que reduzca las distancias con las diferentes medidas de tendencia central de las variables anteriores. 2. Dado que algunas variables numéricas se encuentran disponibles como marco muestral para cada establecimeinto también se va a implementar una muestra (balanceada y) **bien distribuida**. En otras palabras, el objetivo es también exigir una convergencia con la distribución (esto es, no solo con sus valores de tendencia central) de las siguientes variables: a\) Latitud b\) Longitud c\) Porcentaje de AUH 3. En términos de las **probabilidades de inclusión** se esperan cumplir con las siguientes restricciones: 3.1. Otorgarle una mayor probabilidad de entrar a la primera etapa a los establecimientos que entraron en la muestra anterior. La idea es hacer un diseño compatible con una muestra tipo panel que se renueve (aproximadamente) por cuartos en cada edición. De esta manera, ningun establecimiento estaría más de 4 años seguidos y, de manera complementaria, el cuarto que se renueva permitiría ajustar la muestra a los cambios poblacionales sucedidos en el último año. 3.2. Otorgarle una probabilidad de entrar en la primera etapa a los establecimientos en función del tamaño de la matrícula. 3.3. Otorgarle una probabilidad de entrar en la segunda etapa a las secciones en función del tamaño de las mismas. El punto 3.2 y el punto 3.3 merecen algo más de justificación porque pueden parecer contraintuitivos. En efecto, que en la primera etapa los establecimientos sean seleccionados en función del tamaño de la matrícula permite que, para la segunda etapa de la muestra, se pueda tener una regla simple como la asignación de un número fijo de estudiantes para cada establecimiento. Esto, además, permite (en ausencia de problemas de no-respuesta) hacer análisis con una muestra autoponderada. Más concretamente se aspira a registrar 10 estudiantes de cada establecimiento. En los establecimientos en donde haya más de una sección, se puede armar un orden de prioridad entre las secciones disponibles y quedarse, en principio, solo con la que mayor prioridad obtenga. Previamente se puede generar un número para cada caso/establecimiento seleccionado que ordene a los establecimientos en función de algún criterio (p.e. matrícula). Algunos establecimientos obtendran un número par y otros tendrán uno impar. En este sentido, una vez sorteada la sección, se usa el valor del número anterior para indicar el modo de selección de los 10 estudiantes. Si ese establecimiento posee un número par, se elige a los primeros 10 estudiantes. Si ese establecimeinto posee un número impar, se elige los últimos 10 estudiantes. Si la sección seleccionada se agota sin llegar a los 10 casos se pasa a la sección siguiente en el orden de prioridad siguiendo luego el mismo criterio de selección de los estudiantes que en la sección anterior. De este modo se tiene una regla no arbitraria (en el sentido que no decide el docente o el establecimiento qué caso cargar), la misma parece ser probabilística y, de manera derivada, permite trabajar (en ausencia de problemas de no-respuesta) con los datos sin ponderar. ```{r} #| label: muestra_cubo_2025 library(BalancedSampling) library(sampling) ``` ```{r} #| label: muestra_2025_primera etapa # 1.Arregloe generales al objeto marco_muestra = marco_muestra |> drop_na(sector, matricula_inicial_2025, latitud, longitud, ambito, auh_pct) |> # Se sacan los NA #rowid_to_column() # Número de caso mutate(muestra_2024_dummy = if_else(is.na(muestra_2024), 0, 1), # dummy para muestra_2024 lat_std = scale(latitud), #Escalamiento para well distribution lon_std = scale(longitud), auh_std = scale(auh_pct)) # 2. Definición de Probabilidades de Inclusión (pi) n = 676 # Tamaño de muestra deseado. Como referencia se toma uno similar a la muestra anterior alpha = 21.89 # Rotación cada 4 años. En este cáculo influye la relación de muestreo, esto es, cuanto establecimientos se van a seleccionar en comparación al marco muestral. Cuanto mayor es la relación de muestreo menor es el valro del alpha. # 3. Calculo de las probabilidades de inclusion # Función para ajustar pi de manera que sum(pi) == n. Esto es importante porque ningún caso puede tener más de 1 como probabilidad de inclusión pero, a su vez, si solo se ajusta para que aquellos con más de 1 pasen a tener 1, la cantidad de casos deseada pasa a ser diferente al número de casos seleccionados mediante el cálculo. Es necesario no sólo corregir sino también distribuir esa corrección en las probabilidades de inclusión para que la suma o la masa de todas las probabilidades de inclusión de como resultado el respectivo número muestral deseado. ajustar_pi = function(weight, n) { N = length(weight) pi = n * weight / sum(weight) # Mientras existan pi > 1, aplicamos el ajuste while (any(pi > 1)) { forzosos = pi >= 1 pi[forzosos] = 1 n_restante = n - sum(pi[forzosos]) pi[!forzosos] = n_restante * weight[!forzosos] / sum(weight[!forzosos]) } return(pi) } # Aplicación la función marco_muestra$weight = marco_muestra$matricula_inicial_2025 * (1 + alpha * marco_muestra$muestra_2024_dummy) pi_corregido = ajustar_pi(marco_muestra$weight, 676) # Verificación crucial: debe devolver n, esto es, la cantidad de casos a seleccionar (676) sum(pi_corregido) # 4. Matriz de Variables Auxiliares (Balanced) # Convierto las variables (y sus categorías) a dummies con model.matrix X = model.matrix(~ sector + auh_pct + jornada_completa + ambito - 1, data = marco_muestra) # Aseguramos que pi_corregido sea parte de las restricciones de balanceo # Esto obliga al algoritmo a que la suma de unidades (n) sea fija. X_balanceado = cbind(pi_corregido, X) # 5. Matriz de Coordenadas (Well distribution) # Es fundamental que las coordenadas estén en formato numérico. # Acá si hay que estandarizar. Es vital que Latitud, Longitud y AUH tengan media 0 y desvío 1. # Esto ya se había realizado antes en la preparación del objeto. coords = as.matrix(marco_muestra[, c("lat_std", "lon_std", "auh_std")]) # 6. Selección de la Muestra # lcube intenta balancear X y dispersar en el espacio de coords set.seed(123) # Para reproducibilidad indices_muestra = lcube( prob = pi_corregido, Xba = X_balanceado, Xsp = coords) # 1. Inicializamos la columna con valor 0 (ningún establecimiento seleccionado) marco_muestra$muestra_2025 = 0 # 2. Asignamos el valor 1 únicamente a las filas seleccionadas por lcube marco_muestra$muestra_2025[indices_muestra] = 1 # 3. Opcional: Convertir a factor para facilitar tabulaciones posteriores #marco_muestra$muestra_2025 = factor(marco_muestra$muestra_2025, # levels = c(0, 1), # labels = c("NO", "SI")) #print(length(indices_muestra)) # Debería ser estrictamente 676 ``` ## Primera Etapa Teniendo presente las restricciones anteriores se realizó una primera etapa de la muestra a nivel de establecimientos. Se recuerda que la muestra aspira a ser una muestra de estudiantes más que de establecimientos por lo que algunas desviaciones en esta etapa son más esperables que otras. En particular, es esperable que la media de la matrícula de los establecimientos seleccionados sea mayor a la media de la matrícula de la población de establecimientos. Algunos de los resultados, principalmente en cuanto a valores de tendencia central, se pueden ver en la @tbl-poblacion_muestra_2025. ```{r} #| label: tbl-poblacion_muestra_2025 #| tbl-cap: Comparación parámetros poblacionales de establecimientos vs muestra 2025 # 1. Generamos la tabla para la Población Total tbl_poblacion = marco_muestra |> select(sector, ambito, matricula_inicial_2025, jornada_completa, latitud, longitud, auh_pct, muestra_2024) |> # Excluimos la columna de la muestra para no sesgar el resumen tbl_summary() |> modify_header(label = "**Variable**") # 2. Generamos la tabla exclusivamente para la Muestra tbl_muestra_2025 = marco_muestra |> filter(muestra_2025 == 1) |> select(sector, ambito, matricula_inicial_2025, jornada_completa, latitud, longitud, auh_pct, muestra_2024) |> tbl_summary() # 3. Fusionamos ambas tablas en una sola estructura comparativa tbl_comparativa_2025 = tbl_merge( tbls = list(tbl_poblacion, tbl_muestra_2025), tab_spanner = c("**Población Total (N = {N})**", "**Muestra 2025(n = {N})**") ) tbl_comparativa_2025 ``` ## Distribución a nivel de establecimientos Dado que la muestra no es solo balanceada en sus medidas de tendencia central, sino también en la distribución de otras covariables ahora veremos justamente como la distribución de la muestra difiere, en las variables latitud, longitud (@fig-mapa_muestra_2025) y porcentaje de AUH (@fig-densidad_auh), de la distribución de las mismas a nivel del marco muestral. ```{r} #| label: fig-mapa_muestra_2025 #| fig-cap: "Distribución de la población de los establecimientos (puntos negros) y de la muestra 2025 (puntos azules)" #| eval: !expr knitr::is_html_output() #| cache: true mapa_marco_muestra = marco_muestra |> st_as_sf(coords = c("longitud", "latitud"), dim = "XY", sf_column_name = "geom_escuela", crs = 4326) |> select(ambito) mapa_muestra_2025 = marco_muestra |> filter(muestra_2025 == 1) |> st_as_sf(coords = c("longitud", "latitud"), dim = "XY", sf_column_name = "geom_escuela", crs = 4326) |> select(ambito) tmap_mode("view") fig_muestra_2025 = tm_basemap(server = "CartoDB.Positron", alpha = 0.5) + tm_shape(mapa_marco_muestra, name = "Población") + tm_dots(fill_alpha = 0.20, fill = "black") + tm_shape(mapa_muestra_2025, name = "Muestra 2025") + tm_dots(fill_alpha = 0.9, fill = "blue") fig_muestra_2025 ``` ```{r} #| label: fig-mapa_calor_poblacion_muestra #| fig-cap: Mapa de calor sobre la distribución de los casos. Población y muestra 2025. # Función para crear el mapa de calor crear_mapa_calor = function(data, titulo) { ggplot(data) + # Utilizamos las columnas numéricas directamente stat_density_2d(aes(x = longitud, y = latitud, fill = after_stat(level)), # Sintaxis moderna de ggplot2 geom = "polygon", alpha = 0.4) + # La capa sf se encarga de dibujar los puntos usando la columna 'geometry' geom_sf(size = 0.1, alpha = 0.1, color = "black") + scale_fill_viridis_c(option = "magma", name = "Densidad") + labs(title = titulo, # subtitle = "Visualización de la intensidad de cobertura", x = "Longitud", y = "Latitud") + theme_minimal() + theme(legend.position = "right", panel.grid.major = element_line(color = "grey90")) } # Convertimos preservando las columnas originales de coordenadas marco_sf = st_as_sf(marco_muestra, coords = c("longitud", "latitud"), crs = 4326, remove = FALSE) # <--- Este parámetro es la clave muestra_sf = subset(marco_sf, muestra_2025 == 1) # Generar ambos mapas mapa_poblacion = crear_mapa_calor(marco_sf, "Población Total") mapa_muestra = crear_mapa_calor(muestra_sf, "Muestra 2025") # Visualización comparativa mapa_poblacion + mapa_muestra ``` ```{r} #| label: fig-densidad_auh #| tbl-cap: Distribución de densidad de poercentaje de AUH. Población y muestra 2025. # 1. Preparación de los datos para la gráfica # Creamos un dataframe que combine población y muestra pop_data = data.frame(AUH = marco_muestra$auh_pct, Grupo = "Población") mue_data = data.frame(AUH = marco_muestra$auh_pct[marco_muestra$muestra_2025 == 1], Grupo = "Muestra") plot_data = rbind(pop_data, mue_data) # 2. Generación del gráfico de densidades superpuestas fig_densidad_auh = ggplot(plot_data, aes(x = AUH, fill = Grupo, color = Grupo)) + geom_density(alpha = 0.3, size = 1) + scale_fill_manual(values = c("Población" = "grey70", "Muestra" = "#2c3e50")) + scale_color_manual(values = c("Población" = "grey50", "Muestra" = "#2c3e50")) + labs(title = "Comparativa de Densidad: Porcentaje de AUH", subtitle = "Población total vs. Muestra balanceada y dispersa", x = "Porcentaje de Estudiantes con AUH", y = "Densidad", caption = "Nota: El solapamiento indica la calidad del 'spreading' multivariado.") + theme_minimal() + theme(legend.position = "bottom", text = element_text(family = "serif")) fig_densidad_auh # Realización del test K-S ks_result = ks.test( marco_muestra$auh_pct[marco_muestra$muestra_2025 == 1], marco_muestra$auh_pct ) #print(ks_result) ``` ## Simulación a nivel de estudiantes Dado que en el actual diseño se emplea una muestra en donde la probabilidad de inclusión deviene en parte del tamaño del establecimiento es esperable, como se anticipó más arriba, encontrar diferencias entre las tendencias centrales de algunas variables consideradas importantes entre la muestra de establecimientos y la población de los mismos. Por esta razón, partiendo del marco muestral de los establecimientos vamos a crear una población sintética de estudiantes en función de la matrícula de cada uno de ellos. Luego vamos a comparar esa población con otra población de estudiantes asumiendo que se seleccionan "x" estudiantes por cada establecimiento seleccionado (10 en este caso). ```{r} #| label: tb-estudiantes_10 # 1. Crear el universo de estudiantes (Simulado) # Repetimos cada fila del marco según su variable 'size' (matrícula) estudiantes_poblacion = marco_muestra[rep(seq_len(nrow(marco_muestra)), times = marco_muestra$matricula_inicial_2025), ] estudiantes_poblacion$Origen = "Población de Estudiantes" # 2. Crear la muestra de estudiantes (Simulada) # Seleccionamos las escuelas de la muestra y repetimos cada una 10 veces escuelas_seleccionadas = subset(marco_muestra, muestra_2025 == 1) estudiantes_muestra = escuelas_seleccionadas[rep(seq_len(nrow(escuelas_seleccionadas)), each = 10), ] # Solo 10 en vez de la matricula estudiantes_muestra$Origen = "Muestra de Estudiantes (k=10)" # 3. Consolidar para la comparación comparativo_estudiantes = rbind( estudiantes_poblacion, estudiantes_muestra ) ``` ```{r} #| label: tbl-poblacion_estudiantes_vs_muestra_estudiantes #| tbl-cap: Comparación entre poblaciónes sintéticas de estudiantes # 1. Generamos la tabla para la Población Total tbl_muestra_estudiantes = comparativo_estudiantes |> select(sector, ambito, matricula_inicial_2025, jornada_completa, latitud, longitud, auh_pct, muestra_2024, Origen) |> # Excluimos la columna de la muestra para no sesgar el resumen tbl_summary(by = Origen) |> modify_header(label = "**Variable**") tbl_muestra_estudiantes ``` ```{r} #| label: fig-poblacion_estudiantes_vs_muestra_estudiantes comparativo_estudiantes <- rbind( estudiantes_poblacion[, c("auh_pct", "Origen")], estudiantes_muestra[, c("auh_pct", "Origen")] ) ggplot(comparativo_estudiantes, aes(x = auh_pct, fill = Origen, color = Origen)) + geom_density(alpha = 0.35, size = 0.8) + scale_fill_manual(values = c("Población de Estudiantes" = "#bdc3c7", "Muestra de Estudiantes (k=10)" = "#e67e22")) + scale_color_manual(values = c("Población de Estudiantes" = "#7f8c8d", "Muestra de Estudiantes (k=10)" = "#d35400")) + labs(title = "Simulación del Perfil de Estudiantes", subtitle = "Comparación bajo diseño PPS y cuota fija por establecimiento", x = "Porcentaje de AUH (Variable del Establecimiento)", y = "Densidad de Estudiantes", caption = "Nota: La coincidencia de las curvas valida la propiedad de autoponderación.") + theme_minimal() + theme(legend.position = "bottom") # Realización del test K-S ks_result_estudiantes = ks.test( comparativo_estudiantes$auh_pct[comparativo_estudiantes$Origen == "Muestra de Estudiantes (k=10)"], comparativo_estudiantes$auh_pct[comparativo_estudiantes$Origen == "Población de Estudiantes"] ) # print(ks_result_estudiantes) ``` Cabe destacar que si se realiza algún test estadístico entre ambas distribuciones (p.e. Kolmogorov-Smirnov) se observa un aceptable ajuste entre ambas distribuciones lo que sugiere que la muestra logra "copiar" aceptablemente la distribución (y no solo la tendencia central) poblacional de la variable posesión de AUH. ## Segunda etapa En esta segunda etapa aparece una cuestión particular a considerar. Se trata del tamaño de las secciones de los establecimientos como algo diferente a la cantidad de secciones del mismo. Con respecto a la muestra de 2024, esto es un problema algo nuevo porque el diseño de la muestra 2025 aspira a, efectivamente, seleccionar *algunas* secciones dentro de los establecimientos en vez de ir a *todas*. Antes vimos que si la probabilidad de inclusión de un establecimiento en la primera etapa de la muestra depende del tamaño de la matrícula eso permite que la cantidad de estudiantes a seleccionar en la segunda etapa pueda ser única para todos los establecimientos. Dado que en la mayoría de los establecimientos existe más de una sección para cada año (3^ro^ y 6^to^) nos encontramos con el problema de como seleccionar a las propias secciones. Expresado en léxico muestral, ahora las secciones se convierten en una segunda etapa de selección. En este sentido, el problema del tamaño de los establecimientos en la primera etapa se traduce al problema del tamaño de cada sección en la segunda etapa. Si solo se realiza un sorteo por azar simple dentro de cada establecimiento para seleccionar a las secciones, los estudiantes de las secciones más grandes van a tener una menor chance de salir en la muestra que los estudiantes de secciones chicas. En funcion de esto podría ser pertinente que, a la hora de realizar el sorteo de las secciones, se incluya en la probabilidad de inclusión el tamaño de la sección (Punto 3.3). Para tener de referencia, los establecimientos seleccionados en 2025 poseen, en promedio, más secciones que los seleccionados en 2024. Si se cuenta los diferentes turnos ahora hay que seleccionar entre 2,8 secciones en cada establecimiento para cada año. En cambio, este valor para la muestra de 2024 fue de alrededor de 2,2 secciones por cada establecimiento/año seleccionado en su respectiva primera etapa. Sin embargo, el problema no se trata solo de que antes se iba a *todas* las secciones *entre las pocas* del establecimiento elegido y ahora a se vaya a *algunas entre muchas*. Un problema adicional es el siguiente. Supongamos que se tenga en mente la hipótesis que la relación en cuanto al ratio estudiantes/docente sea importante con respecto a los aprendizajes. En ese caso, una regla simple como la de "seleccione siempre a la sección más grande del establecimiento" sería, en presencia de la hipótesis anterior, una regla que, artificialmente, bajaría el promedio de las notas PEB por cenirse a las secciones en donde ese ratio es mayor. La regla anterior se podría mantener si, dentro de cada establecimiento y dentro de cada año seleccionado, hubiera muy poca diferencia de tamaño entre sus diferentes secciones. Esta hipótesis, si bien razonable dentro de ciertos parámetros, es extrema. Por otro lado, asumir que sea usual la situación en donde un establecimiento tenga 3 secciones en 6^to^ grado, de las cuales una tenga un tamaño de 10 estudiantes, otra de 20 y otra de 30, también parece ser algo extremo. Podría ser algo más probable esta situación en los establecimientos de jornada simple en donde habría que seleccionar secciones tanto de la tarde como de la mañana. También puede ser algo más probable de encontrarse esta situación en 6^to^ más que en 3^ro^. Sin embargo, aun asumiendo que estos últimos casos pueden ser más probables en jornada simple y en 6^to^ es difícil anticipar su peso en el conjunto de las secciones. Lo anterior puede analizarce de modo empírico de dos modos diferentes. Primero analizaremos la distribución, medida a través de la desviación estándar, de todas las secciones con respecto a su respectiva media de tamaño para su mismo establecimiento y año. Esto nos va a permitir captar la heterogeneridad en función de la misma unidad que se utiliza para calcular la media que, en este caso, es la cantidad de estudiantes. En la @fig-sd_size_secciones_intra_establecimiento se observa como, si bien con una distribución normal, existen divergencias con respecto a la media. Esto asegura que, si se seleccionara siempre a las secciones más grandes del tandem establecimiento/año, efectivamente la muestra estaría compuesta casi exclusivamente por secciones que se encuentran por encima de su respectiva media. Claro está que la mayoría de ellas estaría compuesta por secciones que sobrepasan por pocos estudiantes (2 estudiantes) a su respectiva media. ```{r} #| label: insumo_segunda_etapa # Comienzo filtrando las secciones. # Le pego los establecimientos de la primera etapa # Algunos filtros son redundantes pero están por seguridad. Por ejemplo algunas secciones de primaria pueden ser de jardin. # Filtro por primaria # Filtro por año # Filtro por muestra_2025 # Primero me tengo que quedar con sólo los establecimientos que entraron en la primera etapa # También me tengo que quedar con sólo los anios que entran en ls PEB (3 y 6) establecimientos_primera_etapa = marco_muestra |> select(clave, muestra_2025) |> filter(muestra_2025 == 1) insumo_segunda_etapa = tb_secciones_2025 |> left_join(establecimientos_primera_etapa, by = "clave") |> filter(muestra_2025 == 1) |> filter(anio == 3 | anio == 6) |> filter(descripcionofertaeducativa == "Primaria (1° Y 2° ciclo)") ``` ```{r} #| label: fig-sd_size_secciones_intra_establecimiento #| fig-cap: Diferencias de tamaño de las secciones para igual establecimiento y año. Media estandarizada en 0 y desvío estándar en cantidad de estudiantes. #tb_secciones_2025_segunda_etapa = tb_secciones_2025 |> #left_join(tb_establecimientos_matricula_2025, by = "clave") |> #filter(nivel_modalidad == "Primaria") |> #filter(anio == 3 | anio == 6) # --- 1. Preparación y Métricas de Dispersión --- analisis_variabilidad = insumo_segunda_etapa |> group_by(clave, anio) |> # Filtramos grupos con más de una sección para analizar la variabilidad interna # Esto es solo para este analisis no para la muestra filter(n() > 1) |> mutate( mean_grupo = mean(total, na.rm = TRUE), sd_grupo = sd(total, na.rm = TRUE), # El Coeficiente de Variación nos da la magnitud relativa del error cv_grupo = (sd_grupo / mean_grupo) * 100, # Diferencia entre la sección y su promedio grupal distancia_media = total - mean_grupo ) |> ungroup() |> select(clave, anio, total, mean_grupo, sd_grupo, cv_grupo, distancia_media) |> arrange(clave, anio) # --- 2. Visualización: Distribución de la Variabilidad --- # Gráfico A: ¿Qué tan diferentes son las secciones dentro de un mismo colegio? # Si la "regla simple" fuera válida, este histograma debería estar muy concentrado en 0. fig_sd_size_secciones_intra_establecimiento = ggplot(analisis_variabilidad, aes(x = distancia_media)) + geom_histogram(bins = 30, fill = "steelblue", color = "white", alpha = 0.8) + geom_vline(xintercept = 0, linetype = "dashed", color = "red") + labs( x = "Desviación estándar respecto a la media de las secciones (en n estudiantes)", y = "Frecuencia de secciones" ) + scale_x_continuous(limits = c(-15, 15), # Establece el rango visible breaks = seq(from = -15, to = 15, by = 2)) + # Define etiquetas cada 5 unidades+ theme_minimal() fig_sd_size_secciones_intra_establecimiento ``` De todos modos, para evitar que la muestra de secciones se pueble exclusivamente de las secciones más mayoritarias, más que implementar la regla simple de "seleccionar la sección más grande" vamos a implementar, como se había anticipado anteriormente, un criterio probabilístico en función del tamaño de la sección. De este modo, a nivel agregado sí se van a seleccionar con mayor probabilidad las secciones más grandes, pero también, en una menor probabilidad, se van a incluir como primera opción algunas secciones que no cumplan ese criterio. ```{r} #| label: muestra_2025_segunda_etapa set.seed(123) # Hay que ver que se hace con los turnos (MANANA/TARDE) resultado_segunda_etapa = insumo_segunda_etapa |> group_by(clave, anio) |> # 1. Barajamos las secciones internamente para neutralizar órdenes preexistentes sample_frac(1) |> mutate( # 2. Calculamos la probabilidad proporcional al tamaño de la sección prob_seleccion = total / sum(total), # 3. Generamos un ranking basado en un sorteo con pesos en función del tamaño # Esto asegura que las más grandes tengan más chance de quedar en 1er lugar, # pero permite que las pequeñas también ocupen ese puesto ocasionalmente. orden = rank(- (prob_seleccion * runif(n()))) # Nota: El uso de runif^(1/p) es una técnica para sorteo PPT ) |> arrange(clave, anio, orden) |> mutate( rol = case_when( orden == 1 ~ "Principal", orden == 2 ~ "Suplente/Complementaria", TRUE ~ "Reserva" ), seccion_mas_grande = if_else(orden == 1 & prob_seleccion == max(prob_seleccion), "SI", "NO") ) |> group_by(clave) |> mutate(establecimiento_numero = cur_group_id()) |> ungroup() |> mutate(instruccion_muestreo = if_else( establecimiento_numero %% 2 == 0, "Pruebas de Matemática y Prácticas del Lenguaje de lxs 10 primerxs estudiantes de la lista (por orden alfabético) que realizaron las pruebas PEB", "Pruebas de Matemática y Prácticas del Lenguaje de lxs 10 últimos estudiantes de la lista (por orden alfabético) que realizaron las pruebas PEB" ), muestra_2025_seccion = if_else(orden == 1, "SI", "NO") ) |> select(idseccion, clave, anio, turno, total, muestra_2025, prob_seleccion, orden, rol, seccion_mas_grande, nombre_seccion, establecimiento_numero, instruccion_muestreo, muestra_2025_seccion) ``` En la @tbl-poblacion_muestra_secciones puede observarse como al tiempo que se respeta la tendencia central del tamaño de las secciones, la mayoría de las veces (60%) se ha seleccionado a la sección más numerosa aunque, justamente, no siempre. De este modo se respeta el principio que las secciones más numerosas sean más seleccionadas (y de ese modo se equiparan las probabilidades de los estudiantes que están en ellas) pero también se seleccionan secciones no numerosas para de ese modo evitar el sesgo de seleccionar las secciones con mayor ratio de estudiantes/docentes. ```{r} #| label: tbl-poblacion_muestra_secciones #| tbl-cap: Población y muestra de secciones tbl_poblacion_muestra_secciones = resultado_segunda_etapa |> select(total, anio, muestra_2025_seccion, seccion_mas_grande) |> rename("tamaño" = total) |> tbl_summary(by = muestra_2025_seccion, statistic = list( all_continuous() ~ "{mean} ({sd})}")) tbl_poblacion_muestra_secciones ``` ```{r} #| label: entrega_final muestra_2025 = resultado_segunda_etapa |> select(idseccion, clave, anio, total, orden, rol, nombre_seccion, establecimiento_numero, instruccion_muestreo) library(writexl) write_xlsx(muestra_2025, here("Outputs", "muestra_2025.xlsx")) ```