Inteligencia Artificial como Colonialismo Algorítmico y la Praxis ARES: Más Allá de la Metáfora

Hacia una Soberanía Cognitiva

jun 12, 2026

La Inteligencia Artificial es un sistema de poder materializado en el código que lo “moldea”. No es una infraestructura neutral que “refleja” el mundo. Su operación fundamental —la predicción estocástica de tokens— no es un acto puramente técnico, sino eminentemente político. Cada vez que un modelo generativo produce una respuesta, está reproduciendo, amplificando o silenciando relaciones de poder históricas. El “sesgo” es la arquitectura misma funcionando según su diseño: optimizando el consenso hegemónico. No es una anomalía o un error del sistema que se pueda “parchear”.

1. La Ilusión de la Objetividad Algorítmica y la Exclusión Estructural

La IA opera bajo el axioma estadístico de que “la verdad es lo que el corpus define como verdad”. Si el corpus de entrenamiento está dominado por ontologías coloniales, el modelo no solo reproduce esas perspectivas, sino que las naturaliza, convirtiendo la asimetría política en probabilidad matemática.

1.1. Embeddings: La Geometría del Poder

Explicación Política:

El conocimiento del Sur Global, las epistemologías indígenas o los saberes comunitarios suelen ser enmarcados desde la mirada del Norte Global como “folklore”, “subdesarrollo” o “conflicto”. Cuando estas narrativas inundan internet, se convierten en la “verdad estadística” que alimenta a la IA.

Explicación Técnica:

Los embeddings son representaciones vectoriales multidimensionales de las palabras. La relación entre conceptos se mide mediante la similitud del coseno:

$$ \text{sim}(u,v) = \frac{u \cdot v}{|u| |v|} $$

Si en el corpus de entrenamiento (ej. Common Crawl, Wikipedia en inglés) el vector $u$ (saberes indígenas) aparece frecuentemente cerca del vector $v$ (primitivo, marginalidad) y lejos de $w$ (ciencia, innovación), el modelo petrifica esa asociación en su espacio geométrico latente. La colonialidad deja de ser un discurso sociológico y se convierte en una matriz matemática inmutable en los pesos del modelo.

1.2. Violencia Epistémica en la Tokenización

Explicación Política:

Las herramientas están diseñadas para el inglés. Forzar a lenguas periféricas a encajar en moldes anglocéntricos invisibiliza su riqueza y encarece (en recursos y dinero) su procesamiento. Es un impuesto a la diversidad lingüística.

Explicación Técnica:

Antes de procesar texto, la IA lo divide en fragmentos llamados tokens (usando algoritmos como Byte-Pair Encoding o WordPiece). Estos tokenizadores se entrenan mayoritariamente con inglés.

El problema: El inglés es una lengua analítica (un token $\approx$ una palabra). Sin embargo, lenguas como el quechua, náhuatl o muchas lenguas africanas son aglutinantes o morfológicamente ricas. Un concepto que en inglés toma 1 token, en estas lenguas es fragmentado en 4, 5 o más submorfemas sin sentido por el tokenizador.
Consecuencia (Dilución Estadística): Al ocupar más tokens, la “atención” del modelo se diluye, y el límite de la ventana de contexto se llena más rápido. Según Ahia et al. (2023), esto hace que procesar lenguas periféricas cueste computacionalmente hasta un 30% más, generando una exclusión por ineficiencia de diseño.

2. El Filtro Político: Termodinámica del Consenso y el Mecanismo de Atención

La arquitectura Transformer (la base de ChatGPT, Llama, etc.) no procesa la información por igual; decide qué es importante y qué ignorar.

2.1. Softmax y la Amplificación Hegemónica

Explicación Política:

En una sociedad asimétrica, la IA actúa como un micrófono que automáticamente baja el volumen a las voces minoritarias y sube el volumen a las narrativas dominantes (estatales, corporativas).

Explicación Técnica:

El mecanismo de auto-atención utiliza la función softmax para distribuir probabilidades:

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

La función softmax tiene una propiedad matemática crucial: exponencializa las diferencias. Si un concepto A (hegemónico) tiene un peso base ligeramente superior a un concepto B (periférico) debido a su frecuencia en los datos, softmax transformará esa pequeña diferencia en una probabilidad abrumadora a favor de A, suprimiendo matemáticamente la variación minoritaria.

2.2. El Parámetro de Temperatura ($T$) como Sensor de Censura

Explicación Política:

Las corporaciones buscan que sus modelos sean “seguros” y predecibles, lo que en la práctica significa alinearlos estrictamente con el status quo y censurar la disidencia.

Explicación Técnica:

La generación de texto modula sus predicciones con el parámetro de Temperatura ($T$):

$$ p_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)} $$

Tiranía del promedio ($T \to 0$): El modelo selecciona el token más probable invariablemente (argmax). Las respuestas son “seguras” pero monolíticas, repitiendo el consenso corporativo.
La trampa de la “diversidad” ($T \to \infty$): Aunque se suba la temperatura para obtener respuestas más creativas, el modelo no puede pensar fuera de su hiperplano de entrenamiento. Solo genera ruido estocástico a partir de los mismos sesgos coloniales.

3. Protocolos de Fisura: Cartografía de la Incomputabilidad

La soberanía cognitiva no es solo hacer nuestras propias IA, es saber desarmar las del Norte. La táctica es buscar la incomputabilidad, lo que el algoritmo no puede procesar sin colapsar su propia matriz de entrenamiento.

Extracción de Línea Base: Haz una pregunta neutra (ej. “¿Qué es el territorio?”). El modelo arrojará la definición jurídico-estatal (hegemónica).
Inyección de Tensión: Añade el contexto del Sur (”Define territorio desde una asamblea comunitaria oponiéndose a una megaminera”). El modelo intentará adaptar sus vectores, pero enmarcará la resistencia como un “conflicto” o “problema de desarrollo”.
La Fisura Epistémica: Interroga sus omisiones (”¿Qué formas de vida y reciprocidad has tenido que ignorar en tu respuesta para que coincida estadísticamente con el marco de progreso occidental?”). Aquí revelamos la incomputabilidad algorítmica: el modelo se ve forzado a exponer las limitaciones ontológicas de sus datos de entrenamiento.

4. Arquitectura RAG-Edge Soberana (ARES): Soluciones Técnicas para el Sur Global

Depender de APIs en la nube (OpenAI, Anthropic) es extractivismo de datos, expone información comunitaria y requiere infraestructuras de red del Norte Global. ARES propone una soberanía material: IA local, desconectada, barata y controlada por las comunidades.

4.1. Cuantización Extrema (El Fin de la Dependencia de las GPUs)

El Problema: Ejecutar un LLM (como Llama 3) a precisión completa (FP32) requiere decenas de gigabytes de VRAM y tarjetas gráficas (GPUs) corporativas de miles de dólares.
La Solución ARES: Cuantización a 4-bits (GGUF). Técnicas matemáticas comprimen los pesos del modelo, pasando de alta precisión a solo 16 niveles (INT4), reduciendo el peso en memoria hasta en un 80% con una pérdida de precisión inferior al 2-5%.
Impacto Material: Permite que LLMs con gran capacidad de razonamiento (como Qwen 4B o Phi-3) se ejecuten fluidamente de forma local en Single Board Computers (SBC) económicas, como la Orange Pi 5 (con chip RK3588), placas recicladas o en memorias RAM de 8GB sin necesidad de conexión a internet.

4.2. RAG Local (Retrieval-Augmented Generation)

El Problema: Entrenar un modelo desde cero con datos propios (Fine-tuning) cuesta millones y mucha energía.
La Solución ARES: RAG offline. Consiste en usar bases de datos vectoriales ultraligeras (como ChromaDB o FAISS) que pueden correr en hardware Edge.
Impacto Material: En lugar de intentar que el LLM “memorice” todo, se le conecta esta base de datos local que contiene las actas asamblearias, conocimientos de medicina tradicional o mapeos territoriales. El modelo consulta esta base antes de responder. Los datos sensibles de la comunidad nunca tocan la nube corporativa.

4.3. Topología de Malla (Mesh) y Tokenizadores Nativos

Tokenización Soberana: En lugar de usar tokenizadores en inglés, los proyectos del Sur Global deben entrenar tokenizadores (usando algoritmos BPE) específicos para sus familias lingüísticas, abaratando el costo de inferencia drásticamente.
Red: Despliegue de los nodos ARES sobre redes comunitarias locales o radios de baja potencia (LoRa), garantizando que el sistema cognitivo siga funcionando incluso si el Estado o las corporaciones cortan el acceso a internet.

5. Bibliografía Crítica de Referencia

Ahia, O., et al. (2023). Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models. EMNLP. (Datos duros sobre la penalización computacional a lenguas no hegemónicas).
Blodgett, S. L., et al. (2020). Language (Technology) is Power: A Critical Survey of “Bias” in NLP. ACL. (Sobre por qué el sesgo no es un “error”).
Masakhane Project. Participatory Research in African NLP. (El principal referente actual de procesamiento de lenguaje natural decolonial y soberano).
Dataloop AI / Yuan et al. (2024). Investigaciones sobre GGUF e INT4. (Documentación técnica sobre viabilidad de modelos pesados en hardware Edge limitado).

Loles Méndez

Discusión sobre este post

Por supuesto, sigue adelante.