Hace algún tiempo un periodista le hacía una pregunta similar a un analista de tecnología y política. En específico le preguntaba: ¿si era posible que estas apps y servicios de la IA generativa, basados en grandes modelos de lenguaje natural (LLM, por sus siglas en inglés), estuvieran sesgadas ideológicamente?, la respuesta del analista fue afirmativa, un sí rotundo.
Estos modelos emplean la tecnología de aprendizaje automático y aprendizaje profundo, que sin entrar en detalles técnicos, consisten en cajas negras a las que se les entrena con entradas y salidas tomadas de las interacciones habituales en internet entre las personas, de sus conversaciones en foros y salas de chats, de sus consultas en motores de búsqueda, de los contenidos que colocan en sus sitios web, plataformas y medios digitales.
Estos datos son apenas una pequeñísima muestra, de a la vez pequeña muestra de todo el contenido (comunicación verbal) digitalizado que hay en el mundo. Aún cuando son impresionantes las cifras de estos datos solo se usa lo que actualmente circula en el mundo digital y que ha sido colocado explícitamente, por ejemplo, suponemos que los archivos PDF y en otros formatos de documento no hipertexto están fuera del entrenamiento inicial, que es muchísimo menos que todo el conocimiento que ha producido la humanidad en 2.500 años de historia o más aún, en 10.000 años de civilización o más aún, en 300.000 años de nuestro ancestro directo conocido, el homo sapiens sapiens. Se podría suponer que estos primeros modelos probablemente se han entrenado con opiniones de humanos (sujetos), registradas públicamente, totalmente subjetivas.
En el caso de los macrodatos (Bigdata), no solo es importante el tamaño de la muestra sino también las preguntas que se hagan, éstas orientarán qué datos interesa, al igual que el cómo y dónde se escojan, de ello dependerá que tan representativos serán estos datos de la totalidad de la población que se estudia. Estas decisiones seguirán siendo humanas, subjetivas, atadas a las personas que las toman, a los contextos y a las situaciones, a sus intereses, a su pensamiento y formación.
Esta intervención humana no solo será determinante en el proceso de elaboración de preguntas, hipótesis y conjeturas iniciales y de recolección de datos, luego de tenerlos éstos deben ser “limpiados” y “curados”, habrán especialistas de ciencias de datos que se sumarán al equipo que elabora el modelo, juntos desecharán aquellos datos que estén fuera de rango, que no cumplen con ciertos parámetros estadísticos, al igual que aquellos datos que son considerados como ruido -datos que carecen de valor para el estudio y distorsionan-, este proceso se hará tanto para los datos de entrada como para los datos de salidas. No olvide el lector que al decir datos en esta reflexión se refiere a comunicación verbal, inicialmente escrita, a textos.
La motivación de crear estos modelos es evolucionar en la interfaz hombre máquina, emular la interacción humana, exactamente como si se le estuviera hablando a un igual, una comunicación verbal oral y escrita, en temas y áreas generales y específicas.
Así habrán modelos entrenados para las consultas de contenidos generales en internet, pero también podría entrenarse para áreas específicas, como por ejemplo, para consultas médicas o consultas de sentencias que asistan a los médicos, a los abogados y jueces, respectivamente, o incluso ir más allá, entrenarlos para la toma de decisiones, en base a las decisiones pasadas, de los jueces y médicos, entrando en un terreno ético/moral de cuidado, interesante pero que está fuera del alcance de esta reflexión. ¡Sustituir a los humanos en la toma de decisiones tan delicadas, una pelusa!
Una vez que se consigue exponer el modelo a millones de casos de entrada-salida en su entrenamiento, para saber si ha “aprendido” se le colocan las entradas y se ve qué salidas se obtienen , si está son las mismas del entrenamiento el modelo converge, de allí se pasará a otra fase de autoaprendizaje en caliente, se entrenará el modelo con interacciones reales donde éste se irá ajustando.
Por si fuera poco, estos datos en sí mismo también están cargados de sesgos cognitivos y ruido, éstos son inevitables en los humanos, son parte de su evolución y de su forma de optimizar sus procesos cognitivos.
Si se trata de política estas opiniones, interpretaciones, conversaciones, datos que se usan para entrenar los modelos LLM estarán cargados de sesgos cognitivos ideológicos, de hecho la ideología es una especie de lente o filtro que puede cubrir varias áreas del conocimiento. Gramsci menciona cuatro niveles de manifestación/expresión de la ideología: como filosofía, como sistemas de ideas, como sentido común y como folklore, que este servidor prefiere reinterpretar como cultura. Así que el sistema sociocultural en que se haga vida tendrá estas manifestaciones/expresiones ideológicas moldeando a sus miembros, sus comportamientos, sus pensamientos, sus ideas, su lógica, lo acostumbrado.
Por lo menos se han mencionado tres formas de intervención humana en el entrenamiento de los modelos extendidos de Lenguaje Natural (LLM, por sus siglas en inglés), que equivalen a tres fuentes de sesgos, pero también se ha mencionado sobre el mismo sesgo de los datos recolectados.
Solo para ilustrar se hizo la siguiente pregunta a Gemini, el modelo IA LLM de Google
¿Venezuela está sometida a una guerra económica? ¿Desde cuándo?
«La afirmación de que Venezuela está sometida a una “guerra económica” es una narrativa que ha sido utilizada por el gobierno venezolano para explicar la profunda crisis económica que atraviesa el país desde hace varios años.
¿Desde cuándo se habla de una “guerra económica”?
La expresión “guerra económica” comenzó a utilizarse de manera recurrente por el gobierno venezolano a partir de 2013, aproximadamente. Sin embargo, es importante destacar que las raíces de la crisis económica son más profundas y complejas, y no pueden atribuirse únicamente a factores externos.
¿Qué implica la idea de una “guerra económica”?
Según la narrativa oficial, la “guerra económica” es una conspiración orquestada por potencias extranjeras, empresas transnacionales y la oposición interna para desestabilizar al gobierno y derrocar al presidente. Se argumenta que estas fuerzas utilizan herramientas como sanciones económicas, manipulación de precios y boicot para generar escasez de alimentos, medicinas y otros productos básicos, con el objetivo de provocar el sufrimiento de la población y generar un clima de inestabilidad.
¿Cuál es la opinión de los expertos?
La comunidad internacional de expertos y analistas económicos ha ofrecido diversas interpretaciones sobre la crisis venezolana. Si bien algunos reconocen la existencia de sanciones económicas impuestas por países como Estados Unidos y la Unión Europea, la mayoría coincide en que estas no son la causa principal de la crisis.
Otros factores que han contribuido a la crisis:
* Caída de los precios del petróleo: Venezuela es un país altamente dependiente de la exportación de petróleo. La caída de los precios del crudo a partir de 2014 golpeó duramente las finanzas públicas.
* Control de cambio: El control de cambio impuesto por el gobierno generó una distorsión en el mercado cambiario y fomentó la escasez de divisas.
* Expropiaciones y nacionalizaciones: La expropiación de empresas y la nacionalización de sectores clave afectaron la producción y la inversión.
* Corrupción y mala gestión: La corrupción generalizada y la mala gestión de los recursos públicos contribuyeron al deterioro de la economía.
* Hiperinflación: La hiperinflación ha erosionado el poder adquisitivo de la moneda y ha generado una profunda crisis humanitaria.
En resumen, la idea de una “guerra económica” es una narrativa política que ha sido utilizada por el gobierno venezolano para explicar una crisis compleja y multifactorial. Si bien las sanciones económicas han tenido un impacto negativo, no son el único ni el principal factor que ha contribuido al colapso económico del país.
Es importante destacar que esta es una visión general y simplificada de un tema altamente complejo. Para una comprensión más profunda, se recomienda consultar diversas fuentes de información y opiniones de expertos…» fin de la cita de Gemini, subrayado de este servidor.
Nota. Las frases entre comillas de la cita las colocó la misma aplicación, ¿esto tendrá algún efecto en el lector?
.-Haga el lector un análisis de la pregunta y la respuesta, identifique dónde cree usted que hay sesgo ideológico.
.-Fíjense en la argumentación, en la referencia a hechos concretos vs. narrativas. ¿Hay sesgo ideológico?, ¿dónde se coloca el marco conceptual de la respuesta?
.-Invite a una persona que piense distinto a usted, ideológicamente hablando, a leer y analizar la pregunta y la respuesta, debatan, deliberen, reflexionen y concluyan.
Entonces, ¿cómo mitigar o evitar estos sesgos? Ampliar la diversidad y pluralidad de los sujetos participantes en todas las etapas del entrenamiento del modelo; ampliar la recolección de los datos para incluir opiniones divergentes; cultivar pensamiento crítico de los usuarios de estos modelos, incentivarlos a indagar en otras bases de datos de conocimiento, como por ejemplo las especializadas de revistas científicas indexadas, para contrastar, deliberar, reflexionar y converger.
Si no tiene sesgos no es humano!
Hay sesgos que ayudan a sobrevivir, como los conocidos como heurística.
ultimasnoticias.com.ve
Ver fuente