Factores Clave para Sostener la Calidad y Seguridad del Paciente: Una Revisión Sistemática
30/09/2023Inteligencia Artificial en Servicios de Urgencias: Qué opciones tenemos?
03/03/2024Gemini 1 vs GPT4: Una nueva frontera de los modelos multimodales en inteligencia artificial
Introducción
En diciembre de 2023 Google lanza su modelo de IA más evolucionado, Gemini 1, un desarrollo revolucionario que promete redefinir lo que es posible en modelos de Inteligencia Artificial multimodal, y que en teoría supera, en la mayoría de tareas, a GPT-4, modelo multimodal de open AI, el modelo de IA más competente con el que contamos hasta el momento.
En este artículo vamos a conocer más de Gemini 1, sus resultados y potencialidades, vamos a realizar una comparación de resultados de evaluaciones entre Gemini y GPT4, y al final hablaremos de cómo los modelos de IA MULTIMODAL se pueden aplicar y aprovechar en salud y medicina.
Gemini 1: Una Visión General
Modelos Multimodales de Vanguardia
Gemini Ultra, Pro y Nano
Gemini 1, el grupo de modelos de IA, presentado por Google en diciembre de 2023 para ponerse a la vanguardia en la carrera de modelos más avanzados de IA, introduce tres variantes:
- Gemini Ultra, para tareas complejas,
- Gemini Pro para despliegue a gran escala y
- Gemini Nano para aplicaciones en dispositivos.
Cada modelo está diseñado para satisfacer necesidades específicas de computación y aplicaciones.
Capacidades y Entrenamiento de Gemini
Entrenamiento Avanzado y Multimodal
Según la documentación de Gemini, Google utilizó un conjunto de datos multimodal y multilingüe, con técnicas avanzadas de entrenamiento, para mejorar el rendimiento y la calidad de los datos. Los modelos Gemini manejan entradas de texto, audio, imagen y video, produciendo salidas de texto e imagen.
Gemini muestra como factor diferencial sobre GPT-4 y otros modelos, la multimodalidad, la capacidad de gestionar con un solo modelo entradas de texto, imagen, audio y video. Específicamente la gestión de videos sería una fortaleza puntual de Gemini sobre otros modelos.
Gemini Vs GPT-4: Evaluación del Rendimiento en Tareas Específicas
El rendimiento y desempeño de los modelos de inteligencia artificial generativa se evalúa habitualmente por medio de pruebas llamadas Benchmarks.
Los Benchmarks son pruebas estandarizadas y tareas específicas desarrolladas por expertos académicos y tecnológicos. Estos benchmarks sirven como puntos de referencia objetivos para medir y comparar la eficacia y eficiencia de diferentes modelos de IA. Son esenciales para asegurar que estos sistemas sean precisos, rápidos, confiables y seguros en sus funciones específicas. Al evaluar el rendimiento de los modelos de IA en estos benchmarks, se puede determinar su aplicabilidad y eficacia en distintos entornos y casos de uso, lo que es crucial para implementaciones exitosas y la toma informada de decisiones en diversos sectores, incluido el sector salud.
En el contexto de la gestión clínica y administrativa de la salud, estos benchmarks son cruciales para asegurar que los modelos de IA no sólo sean precisos y rápidos, sino también confiables y seguros en la toma de decisiones relacionadas con la atención al paciente y la administración de recursos sanitarios. Al evaluar los modelos de IA en estos benchmarks, los profesionales de la salud pueden determinar su aplicabilidad y eficacia en entornos clínicos reales, y definir el aporte potencial de los modelos al objetivo de mejorar la atención para los pacientes.
Rendimiento en Benchmarks Académicos y de Codificación.
La imagen que te comparto es una gráfica de barras que muestra los resultados de comparar el rendimiento de tres modelos de inteligencia artificial — Gemini Ultra, Gemini Pro y GPT-4 — en una serie de benchmarks o pruebas estándar. El objetivo es validar si, como lo presenta Google, Gemini es marcadamente superior a GPT-4 y obtener nuestras propias conclusiones.
Antes de ir a los resultados de la gráfica, una breve explicación de cada una de las tareas evaluadas:
- MMLU: Es como un examen de opción múltiple que abarca 57 temas distintos. Imagina un examen final que cubre casi todo lo que aprendiste en la escuela, desde historia hasta ciencia.
- GSM8K: Piensa en los problemas de matemáticas que hacen los niños en la escuela. Este benchmark pone a prueba si la inteligencia artificial puede resolver esos problemas como lo haría un estudiante.
- MATH: Son problemas matemáticos más difíciles, como los que podrías encontrar en competencias de matemáticas para estudiantes de secundaria y preparatoria.
- BIG-Bench-Hard: Esta prueba desafía al modelo a responder preguntas complejas que requieren más que solo conocimiento; necesitan que el modelo “piense” de manera lógica para llegar a la respuesta correcta.
- HumanEval: Aquí se le pide al modelo que realice tareas de programación en Python, como completar fragmentos de código o corregir errores en ellos.
- Natural2Code: Es similar al HumanEval, pero las preguntas están diseñadas para asegurarse de que el modelo no solo está repitiendo respuestas que ya ha visto en internet, sino que realmente entiende cómo programar.
- DROP: Esta tarea evalúa si la inteligencia artificial puede leer un texto, comprender lo que está leyendo y realizar cálculos aritméticos basados en esa comprensión, como sumar números que encuentra en una historia.
- HellaSwag: Es como un juego de preguntas de sentido común, donde el modelo tiene que elegir la conclusión más lógica de una serie de opciones, basándose en su entendimiento del mundo.
- WMT23: Se trata de una prueba de traducción de idiomas. Se le da al modelo un texto en un idioma y se le pide que lo traduzca a otro, evaluando qué tan bien puede hacerlo en comparación con los humanos y otros modelos.
Aquí está el desglose detallado de los resultados y conclusiones:
- MMLU (Multiple-choice questions in 57 subjects):
- Gemini Ultra logra un 90.04% con una técnica de ingeniería de Prompts (Instrucciones al modelo) llamada cadena de pensamiento (CoT) con 32 ejemplos (32 shots).
- Gemini Pro obtiene un 79.13% con CoT con 8 ejemplos.
- GPT-4 alcanza un 87.29% con CoT con 32 ejemplos.
- GSM8K (Grade-school math):
- Gemini Ultra: 94.4% con razonamiento por encadenamiento de pensamiento y autoconsistencia (Maj1 con 32 ejemplos).
- Gemini Pro: 86.5%.
- GPT-4: 92.0% con las mismas técnicas.
- MATH (Math problems across 4 difficulty levels & 7 subdisciplines):
- Gemini Ultra: 53.2% con 4 ejemplos.
- Gemini Pro: 32.6%.
- GPT-4: 52.9%.
- BIG-Bench-Hard (Subset of BIG-Bench tasks written as CoT problems using variable-length answers):
- Gemini Ultra: 83.6% con 3 ejemplos.
- Gemini Pro: 75.0%.
- GPT-4: 83.1%.
- HumanEval (Python coding tasks):
- Gemini Ultra: 74.4% en evaluación cero disparos (0-shot) con ajuste de instrucciones (IT).
- Gemini Pro: 67.7%.
- GPT-4: 67.0%.
- Natural2Code (Python code generation, New held-out set with no leakage on web):
- Gemini Ultra: 74.9%.
- Gemini Pro: 69.6%.
- GPT-4: 73.9%.
- DROP (Reading comprehension & arithmetic. Metric: F1-score):
- Gemini Ultra: 82.4% con disparos variables.
- Gemini Pro: 74.1%.
- GPT-4: 80.9%.
- HellaSwag (Validation set common-sense multiple choice questions):
- Gemini Ultra: 87.8% con 10 ejemplos.
- Gemini Pro: 84.7%.
- GPT-4: 95.3%.
- WMT23 (Machine translation metric: BLEURT):
- Gemini Ultra: 74.4% con 1 ejemplo.
- Gemini Pro: 71.7%.
- GPT-4: 73.8%.
En general, Gemini Ultra supera a Gemini Pro y es competitivo o superior a GPT-4 en la mayoría de las tareas, lo que demuestra su eficacia en una variedad de tareas de razonamiento, comprensión y generación de código, destacando especialmente en tareas multimodales y de razonamiento complejo.
Lo que nos dicen los datos:
Más allá de los resultados de las evaluaciones y las aseveraciones anteriores, lo que nos evidencian los datos, es que tenemos a nuestro alcance dos herramientas excelentes, dos modelos multimodales y multilingües, con desempeños ecepcionales para una máquina y en algunas de las tareas, un desempeño superior al humano, lo que nos permite inferir el potencial del uso de estos modelos en la optimización y escalamiento de tareas repetitivas para el humano y en la facilitación de la gestión del día a día en diversos tipos de profesiones.
Capacidades Multimodales y Multilingües
Modelos como Gemini y GPT-4 demuestran competencia en múltiples idiomas y modalidades, con mejoras significativas en tareas como traducción y resúmenes multilingües, las consecuencias favorables de estas capacidades son: la eliminación de barreras para la transmisión de conocimientos actualizados, y la democratización y facilitación del acceso a información a una esfera global. Ahora puedes conocer de forma inmediata el contenido de una publicación reciente en una revista china o alemana aun cuando haya sido escrita sólo en el idioma original.
Aplicaciones Prácticas y Futuras de los modelos multimodales
Uso en Dispositivos y Sistemas de Razonamiento
De los modelos Gemini, los modelos Nano están diseñados para despliegues en dispositivos como celulares, mostrando un fuerte desempeño en tareas de resumen y comprensión lectora.
Gemini Pro, por otro lado, se utiliza en sistemas de razonamiento complejos como AlphaCode 2, una aplicación de apoyo a la generación de código de programación fundamentada en el modelo Gemini pro.
Por su parte OpenAi ha puesto a disposición del público un app móvil en IOS y Android que integra toda la multimodalidad de GPT-4 en un entorno de ejecución tipo chat, con lo que se pueden aplicar casos de uso como el video y las imágenes que te presento a continuación.
Ahora te presento un video en el que expongo una de las expresiones prácticas de la forma de aprovechar las potencialidades de la IA para el apoyo en la toma de decisiones clínicas.
https://youtu.be/2E767ZBWf7Q?si=bLs0cWlBgocf3jNx
Capacidades Multimodales Integradas.
- Gemini muestra una habilidad avanzada para combinar capacidades de varias modalidades, incluso video según la presentación realizada por Google para este producto, aunque existe gran debate al respecto, no sembremos si en realidad gestiona videos en tiempo real hasta que esté disponible al público. La multimodalidad es lo que lo hace ideal para entender y generar contenido complejo en diferentes formatos, y esto lo convierte en un modelo potencialmente óptimo para la implementación en el área médica, aunque su modelo más potente aún no está disponible, asumimos que será un modelo de pago o con alguna restricción de acceso, queda por validar las opciones de privacidad y seguridad que ofrezca este modelo para su uso a nivel empresarial.
- Por otro lado Open AI ya ofrece su modelo “ChatGPT Enterprise” soportado por GPT-4, con un precio diferencial, más costoso que ChatGPT Plus, pero que garantiza elementos de seguridad y privacidad superiores, y la posibilidad de entrenar el modelo con información propia de la empresa que adquiera el acceso para la implementación de casos de uso propios y restringidos.
Estas alternativas de uso empresarial permiten vislumbrar la implementación de estos modelos en múltiple escenarios profesionales.
A continuación relacionó varios casos u opciones en que se pueden aplicar e implementar estos modelos multimodales en la práctica médica y gestión clínica.
Recomendaciones para la Práctica Médica y Gestión Clínica
Ejemplos Teóricos y Prácticos de Aplicación de Modelos de Inteligencia Artificial Multimodal en la Práctica Clínica y la Gestión Clínica y Administrativa en Salud
- Integración de Modelos Multimodales en Sistemas de Soporte a las decisiones en Medicina
- Los modelos de lenguaje grandes (LLMs) como Gemini o GPT-4 pueden consolidar e interpretar datos complejos y variados, pueden integrar y analizar datos no estructurados de la historia clínica electrónica, datos estructurados de resultados de laboratorios y datos de imágenes diagnósticas para ofrecer apoyo en etapas clave como diagnóstico de enfermedades, tratamiento y pronóstico, que hacen los equipos médicos.
- Aplicación de LLMs Generales en Medicina
- Estos modelos democratizan el conocimiento médico a través de su potencial para el apoyo en la atención de consultas médicas en línea, impactando en la telemedicina.
- Los LLMs ofrecen capacidades de recuperación y diseminación de conocimientos, proporcionando información médica actualizada, por lo tanto se pueden configurar como tutores o educadores en temas generales o específicos.
- Mejora del Flujo de Trabajo Clínico
- LLMs pueden automatizar la documentación de información del paciente, resumir evoluciones clínicas y reportes de pruebas, mejorando la precisión y la exhaustividad de la documentación clínica:
- Pueden facilitar la toma de decisiones clínicas ofreciendo recomendaciones sobre regímenes de medicación y servicios de imágenes adecuados, seguridad del paciente y listas de chequeo.
- Utilización de Modalidades Múltiples
- Los modelos multimodales en medicina (MLLMs) integran diversas modalidades en LLMs para funciones diagnósticas, incluyendo imágenes y datos estructurados complejos .
- Aplicaciones de Modelos Multimodales con entrenamiento Específico
- BiomedGPT, un modelo versátil para aplicaciones médicas, integra modalidades desde imágenes de CT hasta notas clínicas para su entrenamiento, lo que permite mejores respuestas a preguntas del campo médico en particular.
- Med-PaLM Multimodal (Med-PaLM M) es un modelo de Google previo a Gemini, que se ha entrenado integrando información visual con datos textuales del campo médico, demostrando razonamiento médico intuitivo y adaptabilidad a conceptos y retos clínicos.
- Uso de GPT-4 en Conversaciones Biomédicas
- LLaVA-Med, es un desarrollo que utiliza GPT-4 para generar datos de instrucciones basados en conversaciones en torno a imágenes biomédicas.
- PathAsst emplea GPT-4 para producir datos basados en conversaciones a partir de leyendas de imágenes en el campo de la patología médica.
- Fusión de Modalidades
- Se han realizado esfuerzos para fusionar datos multimodales inyectándolos continuamente en el espacio de incrustación de LLMs pre-entrenados, como en Med-PaLM M.
- RadFM, un desarrollo enfocado en la radiología, maneja imágenes 3D como resonancias magnéticas o tomografías computarizadas, utiliza un módulo perceptor para representar de manera compacta los datos visuales, y de esta forma mejora los resultados de interpretación de imágenes diagnósticas.
- Enfoque en Elementos Conversacionales y Básicos de Recuperación de Información
- Modelos como ChatGPT, GPT-4 y Med-PaLM M y ahora Gemini, se pueden entrenar por medio de diversas técnicas como los embeddings o fine tuning, principalmente en elementos conversacionales y básicos de recuperación de información en el dominio médico con el fin de disminuir al mínimo el riesgo de alucinaciones.
Estos ejemplos demuestran el potencial y las aplicaciones prácticas de los modelos de inteligencia artificial multimodal en la mejora de la práctica clínica y la gestión administrativa en salud. Estos modelos facilitan el análisis de datos complejos, mejoran la eficiencia del flujo de trabajo y permiten un enfoque más holístico en la atención al paciente, sin embargo, debe quedar claro que por ahora incluso si lográramos un modelo entrenado específicamente con datos del dominio médico, la comida como y la verificación por profesionales es la única garantía fiable de que la información que generen estos modelos sea segura y pertinente.
Conclusiones
Gemini 1 y GPT4, representan un salto significativo en la inteligencia artificial multimodal, cuya principal fortaleza es la gestión de información en diferentes formatos. La versatilidad, capacidad para manejar tareas complejas en múltiples modalidades y rendimiento excepcional en benchmarks posicionan a Gemini y GPT-4 como líderes en el campo de la IA. Su impacto se extenderá a numerosas aplicaciones prácticas, marcando una nueva era en la inteligencia artificial.
Estos modelos establecen nuevos estándares en una variedad de tareas, demostrando eficacia de combinar habilidades a través de modalidades y lenguajes. Su rendimiento en benchmarks y la preferencia humana indican su potencial en una amplia gama de aplicaciones prácticas y casos de uso, uno de los bemoles que le vemos a Gemini frente a GPT-4 es q la ventana de contexto de Gemini es de 34 mil Tokens, mientras que la de GPT-4 es de 128 mil tokens, esto significa que GPT-4 tiene una capacidad de manejar y gestionar mucho más información que Gemini por ahora.
Links de Interés:
- La evolución de la medicina y la tecnología
- Posición Bioética del Tanque de Pensamiento AIpocrates: Inteligencia Artificial en Medicina.
- La OMS esboza las cuestiones que cabe tener en cuenta a fin de regular la inteligencia artificial para la salud
- Colombia e Inteligencia Artificial: ¿en dónde estamos?
Puedes Acceder a las últimas publicaciones de esta web:
- Inteligencia Artificial en Medicina, Perspectivas desde diversos roles.
- ChatDoctor vs. ChatGPT: Una Innovación en Asesoramiento Médico con IA
- Chatbots en Salud: Potencial, Limitaciones y Recomendaciones para su Implementación
- Gestión clínica y Equipos de Análisis de Datos en salud: Integración para mejorar los resultados
- Predicción del Riesgo Cardiovascular: Inteligencia Artificial vs Enfoques Tradicionales
- Anticolinérgicos y riesgo de neumonía en adultos mayores: un metaanálisis y revisión sistemática
- ChatGPT en la Práctica Clínica, Investigación y Educación Médica: Una Revisión Sistemática
- Aplicación de la Ciencia de Datos en Medicina: Innovando en la Era Digital – Tipos de Datos
- Inteligencia Artificial y gestión de Medicamentos en Atención Primaria
Te interesó este contenido?
Déjame tu nombre y correo en el formulario de contacto para notificarte sobre contenido relacionado que publique en este blog.
Accede a otras publicaciones sobre gestión clínica y administrativa en salud y cómo la IA está remodelando estos campos aquí.
Oscar Efrem García Fernández