Curso: Ciencia de datos y estadística con R



¡Bienvenido al estudio del pensamiento estadístico¡

 


Hemos visto desde nuestra experiencia, que los estudiantes suelen temer a la asignatura de estadística, se refleja en la ansiedad y aprensión de sus tareas. Si bien es cierto que requiere un amplio antecedente matemático su pensamiento, al mismo tiempo cuenta con una fama que le precede, dentro de cálculos de carácter social y científico. Ahora que se deja de lado el cálculo a mano, creemos que es oportuno dar énfasis al pensamiento estadístico. Hemos descubierto que el uso de un paquete de software como R, para llevar a cabo cálculos y crear gráficos no solo permite un mayor énfasis en la comprensión conceptual y la interpretación, sino también permite a los estudiantes hacer del estudio de esta asignatura de una manera que refleje la práctica estadística del profesional moderno. R esta disponible en https://cran.r-project.org/, es de código abierto y libre que incorpora paquete y librerías especializadas que lo hacen el más potente para el análisis de grandes conjuntos de datos.


La estadística, un poeta diría: es la que nos permite mirar a través de la niebla bizarra del mundo sobre nosotros. Para comprender la realidad subyacente del significado de los datos, la estadística es una tecnología de métodos que nos permiten la extracción del significado dentro de esa niebla. La estadística es esa tecnología para el manejo de la incertidumbre, ese anhelo del hombre de predecir los eventos futuros. Las inferencias acerca de esa neblina, esas que nos arrojan datos de lo desconocido para tomar decisiones, previsiones, análisis de la dinámica de la realidad, son la tarea de las estadísticas. Pero por qué llamarla tecnología y no una disciplina científica. Una tecnología es la aplicación de los conocimientos científicos, la estadística es la aplicación del conocimiento del cómo se refiere a complementar e inferir la información en los datos de la neblina y realizar inferencias sobre sus significados. (La neblina la podemos imaginar como una nube de entropía, incertidumbre; con el potencial de transformar en información). Una estadística es un hecho numérico o resumen de análisis de datos. Así que de cierta manera un resumen de datos es el que incluye: tamaño, tasas, desviaciones, tendencias y el cómo se recopiló, manipuló, analizó y se dedujo sobre los hechos numéricos. La neblina puede ser una nube de partículas, una sociedad, el espacio climatológico, reacciones químicas, biológicas o el comportamiento de enjambres, parvadas o corrientes moleculares en un recipiente.


Los datos, es una palabra que hace énfasis en la “referencia”, significa algo dado sobre alguna parcela de la realidad y definido por conceptos operativos. Frases como: los datos nos indican; los datos demuestran; los datos muestran; los datos corroboran la teoría. Los datos son señales de algún tipo sobre algo que está fuera de nuestra mente, ese algo que está allí, con independencia y las matemáticas buscan dotarnos de un significado racional sobre eso llamado realidad. El dato tiene significado gracias al cobijo de los hechos. Un hecho es un concepto frontera entre nuestro lenguaje y la realidad, estos conceptos dan el sentido necesario a los datos, que bajo esa semántica categorizan las señales de la realidad. Cuando los datos son procesados por la estadística, se genera un producto estructurado conocido como información. La información es el paso necesario para realizar inferencias (acciones de razonamiento) que eventualmente agrupa inferencias, se produce el pensamiento abstracto que da origen al conocimiento.


Desarrollar un curso que presente a los estudiantes las ideas básicas del aprendizaje complejo del estilo de la ciencia, que sea relevante para su vida diaria y futuro desarrollo intelectual. Pasa por enseñar el modelado, podría hacer que los estudiantes razonaran mejor mientras se introduce a la complejidad del pensamiento moderno. Enseñarles este tipo de herramientas, mejora sus habilidades de disertación para razonar, explicar, diseñar experimentos, comunicar, cálculos de análisis y exploración de la realidad. ¿Cómo diseñar un curso específico para aprender a pensar como científico?


Un primer paso es dibujar los modelos abstractos para los estudiantes universitarios. Pero para que cualquier esfuerzo valga la pena, se merece perseguir interrogar y pensar con claridad el terreno que se está pisando.
Para ser sabio tenemos que tener modelos en mente. Y tenemos que ofrecernos experiencia, tanto vicaria como directa, en esta celosía de modelos. Los modelos son estructuras formales representadas en matemáticas y diagramas que nos ayudan a entender el mundo. El dominio de los modelos mejora nuestra capacidad de razonar, explicar, diseñar, comunicar, actuar, predecir y explorar.

Organizar e interpretar datos con modelos se ha convertido en una competencia central para estrategas de gobiernos, el mundo empresarial, planificación urbana, distribución de vacunas, cambio climático… entre otras. Cualquier persona que analiza datos, formula estrategias, diseña productos y protocolos para tomar decisiones, expresa modelos. De ello se deduce que los modelos abarcan la innovación, la predicción, el aprendizaje y en el tiempo será de mucho valor práctico para los profesionales.

Pensar modelos hace que mejore su rendimiento intelectual. Le hará capaz de identificar defectos en su lógica y en la de los demás. Aprenderá a identificar cuándo está permitiéndose en su conciencia estar enajenado por la ideología, supliendo la razón y, tener información más rica y estratificada sobre las implicaciones de las evidencias. Los modelos 1) simplifican el mundo, 2) aportan analogías matemáticas y 3) dan construcciones artificiales exploratorias. En cualquier forma los modelos hacen un mundo más manejable. Debe ser bastante simple el modelo para que dentro de su forma podamos aplicar lógica. Vemos cómo los procesos causales se superponen e interactúan. Creamos la posibilidad de dar sentido a la complejidad y lo hacemos sin abandonar el rigor, el pensamiento del modelo garantiza la coherencia lógica. Esa lógica se basa en evidencia dentro de modelos de datos, para probarlos, perfeccionarlos, y mejorarlos. Para las personas que usan modelos, el auge del pensamiento de modelado tiene una explicación aún más simple: los modelos nos hacen más inteligentes. Sin modelos las personas sufren asignar probabilidades sesgadas e ignoran las tasas bases de los efectos.

La lógica detrás del enfoque de modelos se basa en la idea milenaria de que logramos sabiduría a través de una multitud de modelos: calendarios, mapas de navegación, ciclos biológicos… Esta idea se remonta a Aristóteles, quien escribió sobre el valor de combinar muchos enfoques a la hora de enfrentar un problema. La diversidad de perspectivas también es una motivación: aprender a hacer nuestra mente más grande, ya que el universo es infinito y además dejamos espacio para las paradojas. Los modelos comparten tres características comunes, primero, simplifican eliminando detalles necesarios que obstruyen la realidad. En segundo lugar, formalizan, haciendo definiciones precisas. Los modelos usan matemáticas, no lenguaje natural. Un modelo podría representar creencias como distribuciones de probabilidad sobre estados del mundo o preferencias como clasificación de alternativas. Al simplificar y precisar, se crean espacios manejables dentro de los cuales podemos trabajar a través de la lógica, generar hipótesis, diseñar soluciones y ajustar datos. Los modelos crean estructuras que denotan, de las cuales podemos pensar lógicamente —la lógica se cuida a sí misma—; todo lo que tenemos que hacer es mirar y ver cómo lo hace. La lógica ayudará a explicar, predecir, comunicarnos y diseñar. Pero la lógica tiene un costo, lo que nos lleva a su tercer característica de los modelos. Todos los modelos están equivocados, como señaló George Box[1]. Eso es cierto para todos los modelos; incluso las sublimes creaciones de Newton a las que nos referimos como leyes solo son en ciertas escalas. Los modelos están equivocados porque simplifican —omiten detalles—. Teniendo en cuenta muchos modelos, podemos separar el estrechamiento del rigor cruzando el paisaje de lo posible.

Confiar en un único modelo es una arrogancia. Invita al desastre. Creer que una sola ecuación puede explicarlo o predecir todo fenómeno complejo del mundo real, es caer presa del carisma de las formas matemáticas limpias. No debemos esperar que ningún modelo produzca predicciones numéricas exactas del clima proyectadas a 20 años o tasas de producción de libros de un profesor universitario al paso de los años. Necesitamos modelos para dar sentido a los sistemas complejos, estos sistemas exhiben estructuras y patrones emergentes en constante cambio que se encuentran entre ordenados y aleatorios. Por definición los sistemas complejos son difíciles de explicar, evaluar o predecir.

Por lo tanto, nos enfrentamos a una desconexión. Por un lado, necesitamos modelos para pensar coherentemente. Por otro lado, cualquier modelo único con algunas partes móviles no puede dar sentido a fenómenos complejos y de alta dimensión, como patrones de climas, tendencias comerciales o respuestas adaptativas dentro del cerebro. Debemos llegar a ellos por modelos de aprendizaje automático, modelos de dinámica de sistemas, modelos de teoría de juegos, de justicia y modelado basado en agentes.

 

Referencias


[1] Jones, Stephen. (2014). George Box and Robust Design. Applied Stochastic Models in Business and Industry. 30. 10.1002/asmb.2023.




Datos

 








¬



⟨ ⟩




ρ σ
×



<

×
v











×




·





⌈ ⌉
⌊ ⌋













±
÷
×
·

Δ







×




·

Curso: Ciencia de datos y estadística con R

ISBN 978-607-xxxx-x-x

Contenido

Módulo 0. Entropía, información e incertidumbre

0.1. Introducción la incertidumbre
0.2 Construcción de la función de entropía
0.3 Cálculo de entropías
0.3.1 Modelos heterocedásticos condicionales
0.3.2 Medidas de entropía para la cuantificación de la incertidumbre
0.3.2.1 Entropía de Shannon
0.3.2.2 Entropías de Renyi y Tsallis
0.3.2.3 Entropía muestral
0.3.2.4 Información mutua y entropía de transferencia
0.3.2.5 Entropía de transferencia efectiva
0.3.2.6 Tasa de entropía
0.3.2.7 Entropía de permutación normalizada y número de patrones prohibidos
0.3.2.8 Medidas de entropía basadas en la descomposición de valores singulares
0.3.2.9 Entropía aproximada
0.4 Caso de estudio ejemplo
0.5 En síntesis entropía

Módulo 1. La estadística

1.1 Modelos
1.1.1 Convertir a la realidad en datos
1.1.2 Comunicar recuentos y proporciones
1.2 Estadística
1.2.1 Datos
1.2.2 Media estadística
1.2.3 Dispersión
1.2.4 Oblicuidad
1.2.5 ¿Qué es una población?
1.3 ¿Qué causa qué?
1.4 ¿Qué hacemos cuando no podamos aleatorizar?
1.5 Modelado de relaciones mediante regresión

Módulo 2. Pensamiento estadístico

2.1 ¿Qué es el pensamiento estadístico?
2.2 ¿Cómo estimamos f?
2.3 Métodos no paramétricos
2.4 Pensamiento supervisado versus no supervisado
2.5 Regresión versus problemas de clasificación
2.6 Evaluación de la precisión del modelo
2.6.1 Medición de la calidad de ajuste
2.7 El desafío en el marco de la regresión
2.8 ¿Por qué aprender regresión?
2.8.1 Algunos ejemplos de regresión
2.9 Creación, interpretación y comprobación de modelos de regresión
2.10 Inferencia clásica y bayesiana

Módulo 3. Valores P

3.1 Formar el instinto científico en los estudiantes universitarios
3.1.1 De la confusión a la satisfacción
3.2 Un científico universitario en expansión
3.3 Causalidad
3.4 ¿Qué es la reproducibilidad?
3.5 La psicología del descubrimiento científico
3.5.1 Ver patrones en la aleatoriedad
3.5.2 No querer perderse nada
3.5.3 El acantilado psicologico de p =0.05
3.5.4 El descuido de la variabilidad del muestreo
3.5.5 Sesgo de independencia
3.5.6 Sesgo de confirmación
3.5.7 Efectos de expectativa
3.5.8 Sesgo de retrospectiva
3.5.9 Efecto de pastoreo
3.6 Lo que dicen los estadísticos
3.7 Lo dicen al respecto los científicos
3.7.1 Evidencia empírica y prácticas de investigación cuestionables
3.8 Calidad de los estudios
3.8.1 Reproducibilidad de los estudios
3.8.2 Publicaciones sesgadas
3.9 La cultura científica no conduce a la “búsqueda de la verdad”
3.10 Inferencia estadística frecuentada
3.10.1 Estimación de parámetros

Referencias

 

Autores:

Eduardo Ochoa Hernández
Nicolás Zamudio Hernández
Lizbeth Guadalupe Villalon Magallan
Pedro Gallegos Facio
Gerardo Sánchez Fernández
Rogelio Ochoa Barragán
Mónica Rico Reyes