Metodología del monitor de gasto público

Documento técnico · ¿Dónde se va mi pisto? · CINCO · versión 1.0 (junio de 2026) · ¿Buscas la versión sin matemática? Lee la guía de interpretación.

Este documento especifica por completo los métodos del monitor: los indicadores elementales de riesgo y su agregación a la Fazekas–Tóth–King, la inferencia para proporciones por entidad (intervalos de Wilson y encogimiento Beta-Binomial empírico-bayesiano), los tests de la ley de Benford con control de descubrimientos falsos, el análisis de amontonamiento en los umbrales de la Ley de Contrataciones, las medidas de concentración de mercado, el modelo logístico de oferente único con validación temporal, los p-valores conformales de la lista de anomalías y las definiciones presupuestarias. Toda decisión metodológica que toma el código está documentada aquí; la implementación —SQL declarativo para los agregados y TypeScript puro, determinista y sin dependencias numéricas para la inferencia— es pública en el repositorio del proyecto.

1. Introducción y marco de interpretación

Este monitor publica indicadores de riesgo, no acusaciones. Un indicador elevado significa que un patrón observable —oferente único, adjudicación directa, concentración de proveedores, montos justo bajo un umbral legal— es más frecuente de lo que sería esperable bajo un punto de referencia explícito. Ese exceso puede deberse a corrupción, pero también a mercados con pocos oferentes, a urgencias legítimas, a marcos legales específicos o a registros incompletos. Ningún número de este sitio constituye, por sí solo, evidencia de irregularidad, y el monitor es un ejercicio experimental de CINCO, no una estadística oficial. Cada proceso señalado enlaza a su expediente en Guatecompras para verificación independiente.

Una distinción recorre todo el documento. Los datos son el universo administrativo de procesos publicados, no una muestra: los estadísticos descriptivos (totales, participaciones) no llevan error muestral. La incertidumbre que sí cuantificamos entra por tres vías: (i) la aleatoriedad del proceso generador cuando tratamos las banderas de una entidad como realizaciones de una propensión latente (§4); (ii) el error de modelo en la predicción y la calibración (§7); y (iii) la calidad de los datos (§2, §12). Los intervalos del sitio cuantifican propensión y modelo — nunca "error de encuesta".

2. Datos

El monitor integra dos fuentes administrativas, ambas ingeridas a BigQuery por la canalización pública monitoreo-minfin-guatemala:

Serie	Fuente	Frecuencia	Cobertura
Procesos de compra pública (estándar OCDS 1.1 (Open Contracting Partnership, 2017))	API OCDS de Guatecompras (MINFIN, 2026)	diaria	ene-2020 → presente
Ejecución presupuestaria del gobierno central (SICOIN)	Portal de datos abiertos del MINFIN	mensual	ejercicio corriente
Tipo de cambio de referencia GTQ/USD	Banguat (Banguat, 2026)	diaria	2020 → presente
IPC oficial y proyecciones de población	INE (INE, 2026)	mensual / anual	—

Los agregados usan exclusivamente las tablas compiladas del estándar OCDS (una fila por proceso, clave ocid, último estado conocido): las tablas per-evento emiten varias filas por proceso y duplicarían los conteos.

Reglas de preprocesamiento. (a) Moneda: todo monto se publica en quetzales equivalentes; las adjudicaciones en USD se convierten al tipo de cambio de referencia del Banguat del día de la adjudicación, con arrastre del último tipo disponible (en la práctica el universo 2020–2026 está íntegramente en GTQ; la conversión queda como salvaguarda). (b) Faltantes: el monto del concurso (tender_value_amount) falta con frecuencia; la medida primaria de monto es el total adjudicado, y la propia tasa de faltantes es un indicador de transparencia por entidad (§3). Nunca imputamos. (c) Clasificación de competencia: Guatecompras codifica el procurement_method OCDS como «open» para casi todas las modalidades — incluida la compra directa—, así que la clasificación real usa la modalidad guatemalteca (procurement_method_details): son competitivos la Cotización (Art. 38), la Licitación Pública (Art. 17), la Compra Competitiva (Decreto 11-2021) y las subastas; son no competitivos la Compra Directa (Art. 43), los casos de excepción (Art. 44), los procedimientos del Art. 54, la adquisición por ausencia de oferta y figuras afines. (d) Resolución de entidades: el NIT es la llave de proveedor; los grupos corporativos con varios NIT aparecen como proveedores distintos, lo que sesga la concentración hacia abajo (§6, §12). (e) Umbrales legales: verificados contra el texto de la Ley de Contrataciones del Estado (Congreso de la República, 1992): compra directa hasta Q90,000 (Art. 43) y cotización de Q90,000 a Q900,000 (Art. 38; arriba, licitación pública, Art. 17). La baja cuantía de Q25,000 proviene del Art. 43 reformado (inciso a), cuyos incisos cita el propio feed de modalidades. Además, las compras directas menores de Q10,000 están exentas de publicación (Art. 43, último párrafo): el feed está censurado por la izquierda y los conteos cerca de ese piso deben leerse con esa reserva. Todos los montos se mantienen como parámetros versionados (tabla seed_params), no constantes del código.

3. Indicadores elementales y el índice CRI

Notación: procesos $i$ , entidades compradoras $b$ , proveedores $s$ , años $a$ . $A_i$ es el monto adjudicado del proceso (GTQ equivalente), $n_i$ el número de oferentes recibidos y $\pi_i$ el método de contratación OCDS (abierto, selectivo, limitado, directo).

Definición — indicador elemental

Un indicador elemental es una variable binaria $x_i^{(j)} \in \{0,1\}$ definida solo sobre su dominio elegible $\mathcal{D}_j$ — la población de procesos donde el patrón es informativo:

$j$	Indicador	Definición	Dominio elegible $\mathcal{D}_j$
SB	Oferente único	$\mathbf{1}\{n_i = 1\}$	modalidades competitivas (cotización, licitación, competitiva, subasta) adjudicadas con $n_i$ publicado
NC	Sin competencia	$\mathbf{1}\{\pi_i \text{ no competitiva}\}$	procesos con monto arriba de baja cuantía (debajo, la compra directa es el cauce legal normal)
DIC	Fin de año	$\mathbf{1}\{\text{mes de la primera adjudicación} = 12\}$	procesos adjudicados con fecha
MV	Monto ausente	$\mathbf{1}\{\text{monto del concurso no publicado}\}$	todos los procesos

La elegibilidad explícita evita el error clásico de penalizar a una municipalidad por usar compra directa en montos donde la ley la prescribe. El catálogo sigue a Fazekas, Tóth y King (Fazekas, Tóth y King, 2016) y al inventario de banderas de OCP/DIGIWHIST (OCP/DIGIWHIST, 2016); el oferente único como proxy objetivo de competencia restringida está validado en (Charron, Dahlström, Fazekas y Lapuente, 2017) y (Bauhr, Czibik, de Fine Licht y Fazekas, 2020).

Definición — índice compuesto de riesgo (CRI)

Para la entidad $b$ en el año $a$ , el CRI es la media con pesos iguales de las tasas de sus indicadores elementales — cada tasa estimada con el encogimiento de §4:

\mathrm{CRI}_{ba} \;=\; \frac{1}{|J_{ba}|} \sum_{j \in J_{ba}} \hat p^{\,EB,(j)}_{ba},

donde $J_{ba}$ son los indicadores cuyo dominio elegible es no vacío para esa entidad-año.

Los pesos iguales son la elección por defecto de (Fazekas, Tóth y King, 2016): transparentes y sin grados de libertad del analista. La alternativa —pesos validados por regresión contra el oferente único (Fazekas y Kocsis, 2020)— se considera ejercicio de robustez, no titular: sin datos de resultado (sanciones, auditorías confirmadas) no hay forma de validar pesos contra la verdad, y lo decimos (§12).

4. Inferencia para proporciones: Wilson, Beta-Binomial y encogimiento

Para una entidad con $k_{ba}$ banderas en $n_{ba}$ procesos elegibles, la proporción cruda es $\hat p_{ba} = k_{ba}/n_{ba}$ . Dos problemas: (i) su incertidumbre depende brutalmente de $n_{ba}$ , y (ii) ordenar proporciones crudas premia a las muestras chicas — una municipalidad con 3 procesos y 1 oferente único (33%) desbancaría a un ministerio con 30% sobre 500 procesos.

Para mostrar una celda usamos el intervalo de puntaje de Wilson (Wilson, 1927), recomendado sobre el de Wald por (Brown, Cai y DasGupta, 2001):

\tilde p \;\pm\; \frac{z_{1-\alpha/2}}{1 + z^2/n} \sqrt{\frac{\hat p (1-\hat p)}{n} + \frac{z^2}{4n^2}}, \qquad \tilde p = \frac{\hat p + z^2/2n}{1 + z^2/n}. \tag{1}

Para ordenar entidades usamos un modelo jerárquico Beta-Binomial estimado por bayes empírico (Efron y Morris, 1975):

p_{b} \sim \mathrm{Beta}(\alpha_0, \beta_0), \qquad k_{b} \mid p_{b} \sim \mathrm{Binomial}(n_{b},\, p_{b}).

Proposición — posterior conjugada

Bajo el modelo anterior, la distribución posterior de $p_b$ es

p_b \mid k_b \;\sim\; \mathrm{Beta}(\alpha_0 + k_b,\; \beta_0 + n_b - k_b),

con media

\hat p^{\,EB}_b \;=\; B_b\,\mu_0 + (1 - B_b)\,\hat p_b, \qquad B_b = \frac{\alpha_0 + \beta_0}{\alpha_0 + \beta_0 + n_b}, \quad \mu_0 = \frac{\alpha_0}{\alpha_0 + \beta_0}.

Demostración

La densidad posterior es proporcional al producto de la verosimilitud y el prior: $p^{k}(1-p)^{n-k} \cdot p^{\alpha_0-1}(1-p)^{\beta_0-1} = p^{\alpha_0+k-1}(1-p)^{\beta_0+n-k-1}$ , que es el núcleo de una $\mathrm{Beta}(\alpha_0+k, \beta_0+n-k)$ . Su media es $\frac{\alpha_0+k}{\alpha_0+\beta_0+n}$ , que se reescribe como la combinación convexa del enunciado.

∎

La media posterior es una combinación convexa entre la media del prior y la proporción cruda, con peso de encogimiento $B_b$ decreciente en $n_b$ : las entidades con poca historia se encogen hacia el centro de su grupo; las grandes hablan por sí mismas. Los hiperparámetros $(\alpha_0, \beta_0)$ se estiman maximizando la verosimilitud marginal

\ell(\alpha_0, \beta_0) \;=\; \sum_b \Big[ \ln B(\alpha_0 + k_b,\, \beta_0 + n_b - k_b) - \ln B(\alpha_0, \beta_0) \Big] \tag{2}

con Nelder–Mead sobre $(\ln\alpha_0, \ln\beta_0)$ , arrancando del estimador de momentos de Kleinman (Kleinman, 1973), por estrato: ministerios y municipalidades son poblaciones distintas y comparten prior solo entre pares. Los intervalos creíbles de colas iguales al 90% salen de la inversa de la beta incompleta regularizada.

por qué no ordenamos proporciones crudas

El ranking publica medias posteriores con sus intervalos creíbles, y la advertencia de las tablas de posiciones de Goldstein y Spiegelhalter (Goldstein y Spiegelhalter, 1996) aplica en pleno: filas con intervalos traslapados son estadísticamente indistinguibles. Las entidades con menos de 20 procesos elegibles no entran al ranking. El intervalo del CRI compuesto usa la aproximación normal con varianza $|J|^{-2}\sum_j \mathrm{Var}(p^{(j)} \mid k)$ ; como los componentes correlacionan positivamente, ese intervalo subestima el ancho verdadero — un modelo conjunto es trabajo futuro.

5. Ley de Benford y amontonamiento en umbrales

5.1 Los tests de Benford

Bajo condiciones amplias sobre procesos multiplicativos que abarcan órdenes de magnitud (Benford, 1938) (Hill, 1995), el primer dígito $d \in \{1,\dots,9\}$ de los montos sigue

P(D_1 = d) \;=\; \log_{10}\!\Big(1 + \frac{1}{d}\Big), \tag{3}

y análogamente los dos primeros dígitos sobre $\{10,\dots,99\}$ . Aplicamos (3) a los montos adjudicados por entidad-año (y globalmente), excluyendo montos menores a Q1,000, los valores exactamente iguales a los umbrales legales y las vecindades de ±10% alrededor de los umbrales — donde el desvío es legítimo y se analiza aparte (§5.2). Tres estadísticos:

χ² de Pearson: $\chi^2 = N\sum_d (\hat f_d - P_d)^2/P_d$ con 8 (u 89) grados de libertad y p-valor exacto vía la gamma incompleta regularizada. Con $N$ grande el test rechaza desviaciones inmateriales (el problema de "exceso de potencia", (Nigrini, 2012)): el χ² criba, no veredicta.
Kolmogorov–Smirnov: $D = \max_d |\hat F_d - F_d|$ sobre la distribución acumulada de dígitos, contrastado con los valores críticos simulados para el nulo de Benford de Morrow (Morrow, 2014) ( $d_{0.05} = 1.148/\sqrt N$ , $d_{0.01} = 1.420/\sqrt N$ ) — los asintóticos clásicos son conservadores en soporte discreto.
MAD de Nigrini: $\mathrm{MAD} = \frac{1}{9}\sum_d |\hat f_d - P_d|$ , con sus bandas de conformidad (primer dígito: < 0.006 conforme, 0.006–0.012 aceptable, 0.012–0.015 marginal, > 0.015 no conforme). El MAD no depende del tamaño de muestra (su virtud) y carece de distribución nula (su límite honesto): es la medida de materialidad que acompaña a la significancia del χ².

Pruebas múltiples. Con $B$ entidades testeadas por año, los p-valores del χ² pasan por Benjamini–Hochberg (Benjamini y Hochberg, 1995) a tasa $q = 0.10$ : se rechazan las hipótesis ordenadas $p_{(1)} \le \dots \le p_{(k^\ast)}$ con $k^\ast = \max\{k : p_{(k)} \le kq/B\}$ . La interfaz solo etiqueta "desviación significativa" tras BH, siempre junto al MAD. Pisos de muestra: $N \ge 300$ para el primer dígito, $N \ge 1{,}000$ para los dos primeros.

5.2 Amontonamiento bajo los umbrales legales

Quedarse justo debajo de Q90,000 evita el concurso; justo debajo de Q900,000, la licitación pública. Esa optimización del umbral es legal — y medible. La literatura de bunching (Kleven y Waseem, 2013) (Kleven, 2016) y el test de manipulación de McCrary (McCrary, 2008) motivan nuestro diseño; el estadístico primario es deliberadamente más simple y exacto:

Definición — test binomial de ventana simétrica

Sean $N_-$ y $N_+$ los conteos de adjudicaciones con monto en $[c(1-h), c)$ y $[c, c(1+h))$ para el umbral $c$ y semiancho $h$ . Bajo un nulo de densidad localmente suave (sin masa inducida por la regla),

N_- \mid N_- + N_+ \;\sim\; \mathrm{Binomial}\!\Big(N_- + N_+,\, \tfrac12\Big),

y la razón de amontonamiento es $\hat B = N_-/N_+$ . El p-valor es el binomial exacto de dos colas; la proporción $\pi = N_-/(N_-+N_+)$ lleva su intervalo de Wilson.

Reportamos $h \in \{2.5\%, 5\%, 10\%\}$ como análisis de sensibilidad, el test global y los tests por entidad con control BH. El refinamiento por masa en exceso (contrafactual polinomial sobre los bins excluyendo la ventana, a la Kleven–Waseem) y el test de discontinuidad de densidad con errores estándar analíticos (Cattaneo, Jansson y Ma, 2020) están planificados para v2.

6. Concentración de mercado

Mercado = (entidad compradora × categoría × año), con agregaciones por entidad-año. Las participaciones $s_j$ son por monto adjudicado.

HHI (Hirschman, 1964): $\mathrm{HHI} = 10{,}000 \times \sum_j s_j^2$ , con las bandas de las Horizontal Merger Guidelines (DOJ y FTC, 2010) (1,500 / 2,500; la revisión de 2023 usa 1,000 / 1,800 — mostramos las de 2010 y lo anotamos). Para la variante por conteos con $n$ adjudicaciones, el estimador ingenuo está sesgado hacia arriba: $\mathbb{E}[\hat\lambda] = \lambda + (1-\lambda)/n$ bajo muestreo multinomial, y publicamos la versión insesgada de Simpson (Simpson, 1949)

\hat\lambda_u \;=\; \frac{n\hat\lambda - 1}{n - 1} \quad\Longleftrightarrow\quad \hat\lambda_u = \sum_j \frac{n_j (n_j - 1)}{n (n - 1)}. \tag{4}

El HHI ponderado por monto se reporta crudo con su $n$ visible (la corrección multinomial no aplica a pesos de valor). Gini–Lorenz (Lorenz, 1905) (Gini, 1914) del monto entre proveedores, con la corrección de muestra pequeña de Deltas (Deltas, 2003):

\hat G \;=\; \frac{2\sum_{i=1}^n i\, x_{(i)}}{n \sum_i x_i} - \frac{n+1}{n}, \qquad \hat G_u = \frac{n}{n-1}\,\hat G.

Métricas de dependencia: exclusividad del proveedor $\delta_s = \max_b V_{bs}/\sum_b V_{bs}$ (fracción de sus ventas al Estado que viene de una sola entidad), dependencia del comprador $\rho_b = \max_s V_{bs}/\sum_s V_{bs}$ y número efectivo de proveedores $N^{\mathrm{eff}}_b = 1/\sum_j s_j^2$ .

Nota

Concentración alta en mercados delgados (obras especializadas, municipios pequeños) es estructural, no sospechosa: el sitio la muestra siempre junto a $N^{\mathrm{eff}}$ y al tamaño del mercado. Y la resolución por NIT parte a los grupos corporativos, así que la concentración publicada es una cota inferior.

7. Anomalías: modelo logístico y p-valores conformales

7.1 Scores robustos estratificados

Dentro de cada estrato $g$ = (categoría × método × año), el score de un monto es la desviación robusta del logaritmo:

z_i \;=\; \frac{\ln A_i - \mathrm{med}_g}{1.4826 \cdot \mathrm{MAD}_g}, \tag{5}

con mediana y desviación absoluta mediana del estrato (el factor 1.4826 hace al MAD consistente con σ bajo normalidad; el corte descriptivo $|z| > 3.5$ sigue a Iglewicz y Hoaglin (Iglewicz y Hoaglin, 1993)).

7.2 Regresión logística binomial agrupada

El objetivo predictivo es el oferente único, $y_i = \mathbf{1}\{n_i = 1\}$ , sobre el dominio competitivo — el proxy objetivo mejor validado de competencia restringida (Charron, Dahlström, Fazekas y Lapuente, 2017). Todas las covariables son discretas (decil de monto dentro de año × categoría, modalidad competitiva, tipo de entidad, diciembre, renglones, año), así que agrupamos por celda de diseño $g$ con $k_g$ éxitos en $m_g$ procesos.

Proposición — equivalencia agrupada–desagregada

La log-verosimilitud binomial agrupada

\ell(\beta) \;=\; \sum_g \big[ k_g \ln p_g + (m_g - k_g)\ln(1 - p_g) \big], \qquad p_g = \sigma(x_g'\beta),

coincide, salvo una constante que no depende de $\beta$ , con la verosimilitud Bernoulli de las observaciones individuales: el ajuste agrupado es exactamente el ajuste por proceso.

Demostración

Cada proceso de la celda $g$ comparte el mismo $x_g$ y por tanto el mismo $p_g$ . La suma de los términos Bernoulli $y_i \ln p_g + (1-y_i)\ln(1-p_g)$ sobre los $m_g$ procesos de la celda da $k_g \ln p_g + (m_g - k_g) \ln(1-p_g)$ . El término combinatorio $\ln\binom{m_g}{k_g}$ no depende de $\beta$ .

∎

Con penalización ridge $\tfrac{\lambda}{2}\lVert\beta_{-0}\rVert^2$ (el intercepto libre), el paso de Newton (IRLS) es

\beta^{(t+1)} = \beta^{(t)} + \big(X' W^{(t)} X + \lambda D\big)^{-1} \Big[ X'\big(k - m \odot p^{(t)}\big) - \lambda D \beta^{(t)} \Big], \qquad W^{(t)}_{gg} = m_g\, p^{(t)}_g (1 - p^{(t)}_g), \tag{6}

resuelto por Cholesky; convergencia a $\lVert\Delta\beta\rVert_\infty < 10^{-10}$ con tope fijo de iteraciones — reproducible bit a bit.

Validación temporal. Entrenamos hasta $T-1$ y evaluamos en $T$ ; nunca un split aleatorio, que filtraría el futuro vía la historia de proveedores (la advertencia general de (Tashman, 2000)). Métricas: AUC como estadístico de rangos de Mann–Whitney ponderado por celda con el error estándar de Hanley–McNeil (Hanley y McNeil, 1982), puntaje de Brier y pendiente de calibración de Cox (Cox, 1958) (un refit logístico 1-D sobre $\mathrm{logit}\,\hat p$ ; pendiente 1 = calibración perfecta). Los coeficientes se publican como razones de momios con intervalos de Wald — y son asociaciones, no efectos causales.

7.3 P-valores conformales y control de FDR

Para la lista de adjudicaciones atípicas usamos predicción conformal (Vovk, Gammerman y Shafer, 2005) con score de no conformidad $R_i = |z_i|$ de (5) y conjunto de calibración = el año anterior del mismo estrato:

p_i \;=\; \frac{\#\{j \in \mathrm{cal} : R_j \ge R_i\} + 1}{n_{\mathrm{cal}} + 1}. \tag{7}

Proposición — validez en muestra finita

Si los scores del candidato y de la calibración son intercambiables, $p_i$ es super-uniforme: $\Pr(p_i \le u) \le u$ para todo $u \in (0,1)$ . Además, aplicar Benjamini–Hochberg a una familia de p-valores conformales controla la tasa de descubrimientos falsos de la lista resultante; véase Bates, Candès, Lei, Romano y Sesia (Bates, Candès, Lei, Romano y Sesia, 2023), cuyo resultado usamos sin re-demostrar.

El conteo de (7) se materializa con los scores de calibración agrupados en bins de 0.01, redondeando el score del candidato hacia abajo: eso solo puede agrandar $p_i$ , así que la garantía se conserva (conservadora). La lista publicada aplica BH a $q = 0.10$ : de lo señalado, esperamos a lo sumo 10% de falsos positivos bajo intercambiabilidad. La intercambiabilidad entre años es aproximada (la inflación se mitiga por la estratificación anual y la escala logarítmica; los cambios estructurales la degradan — §12).

8. Series de tiempo del gasto

La serie mensual del monto adjudicado (2020 →) alimenta el tablero. El pico de diciembre se cuantifica con el índice de concentración de fin de año $C^{dic}_a = Y_{12,a} / (\tfrac{1}{12}\sum_m Y_{m,a})$ contra el punto de referencia uniforme 1 — descriptivo y sin supuestos. La descomposición estructural (nivel local + estacionalidad trigonométrica de Harvey (Harvey, 1989) (Durbin y Koopman, 2012), exactamente la forma del monitor de remesas de CINCO), el nowcast del mes en curso por curvas de completitud con intervalos conformales y la detección de rupturas (CUSUM (Brown, Durbin y Evans, 1975); segmentación de Bai–Perron (Bai y Perron, 1998) cuando haya historia suficiente) comparten la maquinaria ya publicada en ese monitor y entran en v1.1 con su backtesting.

los meses recientes se revisan

Las adjudicaciones se publican con rezago y se corrigen: $Y_m$ de los últimos meses es un blanco móvil. Toda evaluación retrospectiva usa solo meses madurados (≥ 60 días), y las cifras recientes del tablero deben leerse como provisionales. No congelamos vintages en v1 (§12).

9. Ejecución presupuestaria

Para la entidad $b$ con corte en el mes $m$ del ejercicio:

Definición — tasas de ejecución

e_b(m) = \frac{\mathrm{devengado}_b(m)}{\mathrm{vigente}_b(m)}, \qquad \kappa_b(m) = \frac{\mathrm{percibido}_b(m)}{\mathrm{devengado}_b(m)}, \qquad R_b = \frac{\big|\mathrm{modificado}_b\big|}{\mathrm{asignado}_b}.

El denominador de $e_b$ es el vigente al corte (el presupuesto se mueve durante el año). $R_b$ —la recomposición— es una cota inferior del trasiego real: los traslados que se cancelan entre sí no dejan huella en el neto. La trayectoria se compara con la referencia uniforme $m/12$ , un punto de partida explícitamente ingenuo: hay estacionalidad legítima (ciclos de obra, transferencias programadas).

Honestidad con un solo ejercicio. El portal de datos abiertos publica el acumulado del ejercicio corriente; sin historia, ningún intervalo predictivo del cierre es calibrable. El monitor acumula una foto mensual propia (hist_budget_snapshots) desde su puesta en marcha; cuando existan ejercicios completos, la proyección de cierre usará curvas históricas de completitud por entidad con intervalos conformales por división de muestra — la interfaz del módulo ya está escrita para esa firma. Mientras tanto, cualquier banda que se muestre es el rango entre entidades comparables, etiquetado como tal y nunca como intervalo de predicción.

10. Red comprador–proveedor

El grafo bipartito $G = (B \cup S, E)$ pesa cada arista con el monto adjudicado $V_{bs,a}$ del año. Métricas exactas por nodo: fuerza $k_b = \sum_s V_{bs}$ , grado (contrapartes distintas), exclusividad $\delta_s$ (§6) y diversificación $N^{\mathrm{eff}}_b$ (Newman, 2018). Para estructura de comunidades, la proyección sobre proveedores usa la similitud coseno de los portafolios de compradores (la forma de asignación de recursos de (Zhou, Ren, Medo y Zhang, 2007) es la alternativa documentada).

determinismo antes que sofisticación

La maximización de modularidad es NP-dura y sus heurísticas habituales (Louvain, propagación de etiquetas) dependen del orden de visita y de semillas: una herramienta de rendición de cuentas no puede mostrar comunidades distintas en cada build. v1 publica componentes conexas de la proyección umbralizada — exactas, estables, explicables. Si se requieren comunidades más finas, el algoritmo voraz de Clauset–Newman–Moore (Clauset, Newman y Moore, 2004) con desempate lexicográfico es la única opción admitida: totalmente reproducible.

El visor renderiza el subgrafo de los 30 compradores mayores (top-15 aristas por comprador o ≥ Q1M), con posiciones iniciales sembradas por hash del identificador: el layout es reproducible entre visitas.

Límite estructural: solo se observan los ganadores. Sin las ofertas perdedoras no hay red de co-licitación ni tests de rotación de ofertas — esto es un mapa de estructura de mercado, no un detector de colusión. Si Guatecompras publica algún día los oferentes completos, esa puerta se abre.

11. Deflactación y comparabilidad

Los montos nominales se deflactan con el IPC oficial del INE (un monitor experimental no debe encadenarse a otro índice experimental; el índice diario de CINCO aparece solo como análisis de sensibilidad), con base en el último diciembre disponible: $\tilde A_i = A_i \cdot P_{m_0}/P_{m(i)}$ . Las adjudicaciones en USD se convierten al tipo de cambio de referencia del Banguat del día y luego se deflactan en GTQ. Las vistas per cápita usan las proyecciones de población del INE (con su error pre-censal conocido). Falta un deflactor público de costos de construcción: las obras se deflactan con IPC y la limitación queda anotada.

12. Limitaciones

Riesgo ≠ corrupción. Los indicadores miden patrones estadísticos; su validación contra resultados confirmados no existe todavía para Guatemala, y los pesos del CRI son convencionales.
Solo ganadores. Sin ofertas perdedoras no hay análisis de colusión.
Revisiones. El feed OCDS corrige hacia atrás; no congelamos vintages en v1.
Un ejercicio presupuestario. SICOIN abierto publica el año corriente; la historia se acumula desde la puesta en marcha del monitor.
Resolución por NIT. Grupos corporativos con varios NIT fragmentan la concentración (cota inferior).
Intercambiabilidad aproximada. Los p-valores conformales heredan el supuesto; rupturas estructurales lo degradan.
Umbrales reformables. Los montos del Decreto 57-92 cambian por reforma; viven en parámetros versionados y deben verificarse.
Faltantes no aleatorios. El monto del concurso falta de forma correlacionada con la entidad; por eso es indicador, no solo ruido.

Referencias

Fazekas, M., I. J. Tóth y L. P. King (2016). “An Objective Corruption Risk Index Using Public Procurement Data”. European Journal on Criminal Policy and Research, 22(3), 369–397. https://doi.org/10.1007/s10610-016-9308-z
Fazekas, M. y G. Kocsis (2020). “Uncovering High-Level Corruption: Cross-National Objective Corruption Risk Indicators Using Public Procurement Data”. British Journal of Political Science, 50(1), 155–164. https://doi.org/10.1017/S0007123417000461
Charron, N., C. Dahlström, M. Fazekas y V. Lapuente (2017). “Careers, Connections, and Corruption Risks: Investigating the Impact of Bureaucratic Meritocracy on Public Procurement Processes”. The Journal of Politics, 79(1), 89–104. https://doi.org/10.1086/687209
Bauhr, M., Á. Czibik, J. de Fine Licht y M. Fazekas (2020). “Lights on the Shadows of Public Procurement: Transparency as an Antidote to Corruption”. Governance, 33(3), 495–523. https://doi.org/10.1111/gove.12432
Open Contracting Partnership y DIGIWHIST (2016). Red Flags for Integrity: Giving the Green Light to Open Data Solutions. Washington, D.C.: Open Contracting Partnership. https://www.open-contracting.org/resources/red-flags-integrity-giving-green-light-open-data-solutions/
Open Contracting Partnership (2017). Open Contracting Data Standard, versión 1.1. Especificación técnica. https://standard.open-contracting.org/latest/es/
Congreso de la República de Guatemala (1992). Ley de Contrataciones del Estado, Decreto 57-92 y sus reformas (incl. Decreto 46-2016). Artículos 38–44: modalidades y montos. https://www.guatecompras.gt
Benford, F. (1938). “The Law of Anomalous Numbers”. Proceedings of the American Philosophical Society, 78(4), 551–572.
Hill, T. P. (1995). “A Statistical Derivation of the Significant-Digit Law”. Statistical Science, 10(4), 354–363. https://doi.org/10.1214/ss/1177009869
Nigrini, M. J. (2012). Benford's Law: Applications for Forensic Accounting, Auditing, and Fraud Detection. Hoboken: Wiley.
Morrow, J. (2014). “Benford's Law, Families of Distributions and a Test Basis”. CEP Discussion Paper 1291, London School of Economics. https://cep.lse.ac.uk/pubs/download/dp1291.pdf
Benjamini, Y. y Y. Hochberg (1995). “Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing”. Journal of the Royal Statistical Society B, 57(1), 289–300. https://doi.org/10.1111/j.2517-6161.1995.tb02031.x
McCrary, J. (2008). “Manipulation of the Running Variable in the Regression Discontinuity Design: A Density Test”. Journal of Econometrics, 142(2), 698–714. https://doi.org/10.1016/j.jeconom.2007.05.005
Kleven, H. J. y M. Waseem (2013). “Using Notches to Uncover Optimization Frictions and Structural Elasticities: Theory and Evidence from Pakistan”. The Quarterly Journal of Economics, 128(2), 669–723. https://doi.org/10.1093/qje/qjt004
Kleven, H. J. (2016). “Bunching”. Annual Review of Economics, 8, 435–464. https://doi.org/10.1146/annurev-economics-080315-015234
Cattaneo, M. D., M. Jansson y X. Ma (2020). “Simple Local Polynomial Density Estimators”. Journal of the American Statistical Association, 115(531), 1449–1455. https://doi.org/10.1080/01621459.2019.1635480
Hirschman, A. O. (1964). “The Paternity of an Index”. The American Economic Review, 54(5), 761–762.
Simpson, E. H. (1949). “Measurement of Diversity”. Nature, 163, 688. https://doi.org/10.1038/163688a0
U.S. Department of Justice y Federal Trade Commission (2010). Horizontal Merger Guidelines (§5.3: umbrales HHI 1,500/2,500; revisados en 2023 a 1,000/1,800). https://www.justice.gov/atr/horizontal-merger-guidelines-08192010
Lorenz, M. O. (1905). “Methods of Measuring the Concentration of Wealth”. Publications of the American Statistical Association, 9(70), 209–219.
Gini, C. (1914). “Sulla misura della concentrazione e della variabilità dei caratteri”. Atti del Reale Istituto Veneto di Scienze, Lettere ed Arti, 73, 1203–1248.
Deltas, G. (2003). “The Small-Sample Bias of the Gini Coefficient: Results and Implications for Empirical Research”. The Review of Economics and Statistics, 85(1), 226–234. https://doi.org/10.1162/rest.2003.85.1.226
Wilson, E. B. (1927). “Probable Inference, the Law of Succession, and Statistical Inference”. Journal of the American Statistical Association, 22(158), 209–212.
Brown, L. D., T. T. Cai y A. DasGupta (2001). “Interval Estimation for a Binomial Proportion”. Statistical Science, 16(2), 101–133. https://doi.org/10.1214/ss/1009213286
Kleinman, J. C. (1973). “Proportions with Extraneous Variance: Single and Independent Samples”. Journal of the American Statistical Association, 68(341), 46–54.
Efron, B. y C. Morris (1975). “Data Analysis Using Stein's Estimator and Its Generalizations”. Journal of the American Statistical Association, 70(350), 311–319. https://doi.org/10.1080/01621459.1975.10479864
Goldstein, H. y D. J. Spiegelhalter (1996). “League Tables and Their Limitations: Statistical Issues in Comparisons of Institutional Performance”. Journal of the Royal Statistical Society A, 159(3), 385–443. https://doi.org/10.2307/2983325
Iglewicz, B. y D. C. Hoaglin (1993). How to Detect and Handle Outliers. ASQC Basic References in Quality Control, vol. 16. Milwaukee: ASQC Quality Press.
Vovk, V., A. Gammerman y G. Shafer (2005). Algorithmic Learning in a Random World. Nueva York: Springer.
Bates, S., E. Candès, L. Lei, Y. Romano y M. Sesia (2023). “Testing for Outliers with Conformal p-values”. The Annals of Statistics, 51(1), 149–178. https://doi.org/10.1214/22-AOS2244
Hanley, J. A. y B. J. McNeil (1982). “The Meaning and Use of the Area under a Receiver Operating Characteristic (ROC) Curve”. Radiology, 143(1), 29–36. https://doi.org/10.1148/radiology.143.1.7063747
Cox, D. R. (1958). “Two Further Applications of a Model for Binary Regression”. Biometrika, 45(3/4), 562–565.
Harvey, A. C. (1989). Forecasting, Structural Time Series Models and the Kalman Filter. Cambridge: Cambridge University Press.
Durbin, J. y S. J. Koopman (2012). Time Series Analysis by State Space Methods (2.ª ed.). Oxford: Oxford University Press.
Brown, R. L., J. Durbin y J. M. Evans (1975). “Techniques for Testing the Constancy of Regression Relationships over Time”. Journal of the Royal Statistical Society B, 37(2), 149–192.
Bai, J. y P. Perron (1998). “Estimating and Testing Linear Models with Multiple Structural Changes”. Econometrica, 66(1), 47–78. https://doi.org/10.2307/2998540
Tashman, L. J. (2000). “Out-of-sample Tests of Forecasting Accuracy: An Analysis and Review”. International Journal of Forecasting, 16(4), 437–450.
Clauset, A., M. E. J. Newman y C. Moore (2004). “Finding Community Structure in Very Large Networks”. Physical Review E, 70, 066111. https://doi.org/10.1103/PhysRevE.70.066111
Zhou, T., J. Ren, M. Medo y Y.-C. Zhang (2007). “Bipartite Network Projection and Personal Recommendation”. Physical Review E, 76, 046115. https://doi.org/10.1103/PhysRevE.76.046115
Newman, M. E. J. (2018). Networks (2.ª ed.). Oxford: Oxford University Press.
Ministerio de Finanzas Públicas de Guatemala (2026). Guatecompras — API OCDS; Portal de Datos Abiertos (CKAN); SICOIN. Datos administrativos públicos. https://ocds.guatecompras.gt
Banco de Guatemala (2026). Tipo de cambio de referencia del quetzal. Serie diaria. https://www.banguat.gob.gt
Instituto Nacional de Estadística de Guatemala (2026). Índice de Precios al Consumidor (base 2023) y proyecciones de población. https://www.ine.gob.gt