Gestión clínica y Equipos de Análisis de Datos en salud: Integración para mejorar los resultados
07/08/2023Factores Clave para Sostener la Calidad y Seguridad del Paciente: Una Revisión Sistemática
30/09/2023Introducción: ChatDoctor vs. ChatGPT, la Necesidad de Modelos de Lenguaje entrenados en contenido Médico
Con el aumento y disponibilidad de los modelos de inteligencia artificial generativa y su influencia en diferentes áreas de nuestra vida personal y profesional, la atención médica también podría experimentar cambios significativos..
En este blog te comparto el resumen y análisis de un artículo publicado en la revista Cureus – Journal of Medical Science el 24 de junio de 2023, con el título “ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge” (DOI: 10.7759/cureus.40895).
El artículo es el paper de una investigación en que se le realizó ajuste fino con conocimiento del dominio médico, al modelo de lenguaje LLaMa-2 de Meta. El artículo aporta una nueva perspectiva sobre cómo los modelos de lenguaje ajustados y especializados podrían mejorar la precisión en el asesoramiento médico con chatbots soportados en inteligencia artificial generativa.
¿Por qué es Relevante el Artículo?
Mientras modelos de lenguaje grandes como ChatGPT han demostrado utilidad en diversas aplicaciones, sus limitaciones en el ámbito médico se vuelven evidentes, las alucinaciones y la falta de precisión en las respuestas, generan un alto riesgo para los pacientes. Aquí es donde ChatDoctor, el modelo propuesto en el artículo, entra en juego.
Objetivo de la Investigación
El objetivo principal de la investigación fue crear un modelo de lenguaje que pudiera superar las limitaciones de los modelos de lenguaje grandes, como ChatGPT, en el asesoramiento médico.
Recopilación de Datos de entrenamiento y de prueba:
Para realizar en Fine Tuning del modelo LLaMa-2, los investigadores se valieron del Conjunto de Datos HealthCareMagic100k (Aproximadamente 100,000 interacciones entre pacientes y médicos del sitio web de consultas médicas en línea, HealthCareMagic). Luego de entrenar el modelo, los investigadores tomaron el Conjunto de Datos de iCliniq como conjunto de pruebas para validar el rendimiento del modelo. (Aproximadamente 10,000 interacciones online entre médicos y pacientes de la página web de iCliniq)
Creación y Validación del Modelo
Cómo Base de Conocimiento Externo para el modelo se empleó MedlinePlus para crear una base de datos de conocimiento que abarca enfermedades, síntomas, y tratamientos médicos, se realizó un filtrado tanto manual como automático para garantizar la relevancia y precisión.
Con el fin de realizar la Evaluación Cuantitativa del modelo entrenado, se empleó BERTScore para calcular métricas como precisión, recall y puntuación F1.
BERTScore es una métrica para evaluar la calidad de texto generado por modelos de lenguaje.
BERTScore compara la similitud entre el texto generado y un texto de referencia. La idea es que si el texto generado es semánticamente similar al texto de referencia, BERTScore será alto.
Resultados y Conclusiones: ChatDoctor versus ChatGPT
Evaluación Cuantitativa
Utilizando BERTScore como métrica, ChatDoctor superó a ChatGPT en precisión, recall y puntuación F1.
Esto valida la eficacia de un modelo de lenguaje especializado en el ámbito médico.
Mejoras Significativas
Los resultados apuntan a una mejora significativa en la capacidad del modelo para entender las necesidades del paciente y proporcionar un asesoramiento médico informado.
Un poco más de contexto:
“La técnica usada para entrenar al modelo fue el Fine Tunning al módelo LLaMa 2 – 7B”
Qué es LLaMA-2?
El modelo de lenguaje grande meta-AI (LLaMA) se presenta como una solución para abordar las limitaciones en el conocimiento médico de modelos de lenguaje grandes prevalentes como ChatGPT. LLaMA es un modelo de lenguaje open source, que se puede implementar en entornos locales y ofrece mayor seguridad sobre los datos que los modelos propietarios como ChatGPT, Bing o Google Bard.
LLaMa-2 se adaptó y refinó utilizando un gran conjunto de datos de 100,000 diálogos entre pacientes y médicos. Además, se incorporó un mecanismo de recuperación de información autodirigido, permitiendo al modelo acceder y utilizar información en tiempo real de fuentes en línea como Wikipedia y bases de datos médicas fuera de línea.
Características de LLAMA-2
LLaMA fue desarrollado utilizando el modelo LLaMA-7B de Meta, que tiene una estructura de decodificador único y alrededor de 7 mil millones de parámetros. A pesar de su tamaño relativamente modesto en comparación con GPT-3, LLaMA muestra un rendimiento comparable en varios puntos de referencia de procesamiento de lenguaje natural (NLP).
Este rendimiento se logró diversificando los datos de entrenamiento en lugar de aumentar los parámetros de la red. Específicamente, LLaMA se entrenó en 1.0 billones de tokens de fuentes de datos públicamente accesibles como CommonCrawl y documentos de arXiv. Posteriormente, se afinó utilizando el conjunto de datos HealthCareMagic-100k.
LLaMa-2 y ChatDoctor
En el estudio, LLaMA se utilizó como la plataforma para el desarrollo y la evaluación del modelo de chat médico, ChatDoctor.
Se entrenó primero un modelo de conversación genérica basado en LLaMA utilizando datos de instrucción de 52K del proyecto Alpaca de la Universidad de Stanford.
Los experimentos extensos mostraron que el modelo afinado supera a ChatGPT en términos de precisión, recall y puntuación F1.
En resumen, LLaMA se presenta como un modelo de lenguaje de acceso abierto altamente adaptable y eficiente, especialmente cuando se trata de aplicaciones en el dominio médico.
Conclusión
Aunque aun es un proyecto de investigación, ChatDoctor representa un avance significativo en modelos de lenguaje médicos, demostrando un nivel de precisión y fiabilidad que lo coloca como una herramienta potencialmente revolucionaria en el ámbito de la salud digital.
Esta investigación nos ilustra cómo en medicina estamos cada vez más cerca de poder contar con asistentes de IA altamente especializados como ChatDoctor, que no solo son beneficiosos sino esenciales en un campo con tan alta exigencia y baja tolerancia al error.
El futuro parece brillante, y este avance es solo el comienzo.
En el artículo se proporcionan las siguientes URL que permiten acceder al proyecto en GitHub:
- ChatDoctor: https://github.com/Kent0n-Li/ChatDoctor
- Stanford Alpaca: https://github.com/tatsu-lab/stanford_alpaca
Estas URL ofrecen acceso a los códigos fuente, conjuntos de datos y otros recursos relevantes para el proyecto ChatDoctor y el modelo de lenguaje LLaMA.
Resumen esquemático del Artículo:
A continuación te presento un resumen un poco mas detallado y técnico del artículo que da origen a este post. el resumen tiene una estructura basada en las secciones habituales que conforman una publicación científica tipo Artículo Original.
Datos Generales del Artículo:
Título del artículo y traducción al español.
- Título del artículo: “ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge”
- Traducción al español: “ChatDoctor: Un Modelo de Chat Médico Ajustado en un Modelo de Lenguaje Grande Meta-AI (LLaMA) Utilizando Conocimiento del Dominio Médico”
DOI:
El DOI del Artículo es: 10.7759/cureus.40895
Fecha de Publicación:
Fecha de publicación: 24 de junio de 2023
Revista en que se publicó el Artículo:
El artículo se publicó en la Revista: Cureus – Journal of Medical Science
Pagina Web de la Revista
La pagina web de la revista es: https://www.cureus.com/
Metodología:
Relevancia del Artículo:
El artículo aborda las limitaciones en el conocimiento médico de modelos de lenguaje grandes como ChatGPT. Propone un modelo especializado, ChatDoctor, que mejora la precisión en el asesoramiento médico.
Objetivo del Artículo:
El objetivo principal de la investigación fue abordar las limitaciones observadas en el conocimiento médico de modelos de lenguaje grandes predominantes, como ChatGPT. Se buscó crear un modelo de lenguaje especializado con mayor precisión en el asesoramiento médico.
Fuentes de Datos para el ajuste fino del Modelo – Fine Tunning:
El artículo se centra en la creación y validación de un modelo de chat médico, ChatDoctor, utilizando datos recopilados de conversaciones entre pacientes y médicos
- Se recopilaron aproximadamente 100,000 interacciones entre pacientes y médicos del sitio web de consultas médicas en línea, HealthCareMagic. Este conjunto de datos se etiquetó como HealthCareMagic100k.
- Se obtuvieron aproximadamente 10,000 conversaciones adicionales de otro sitio de consultas médicas en línea independiente, iCliniq, para probar el rendimiento del modelo.
- Se creó una base de datos de conocimiento externo que abarca enfermedades, síntomas, pruebas/tratamientos médicos relevantes y medicamentos potenciales. Se utilizó MedlinePlus para construir esta base de datos de enfermedades.
- También se menciona el uso de Wikipedia como una fuente de conocimiento en línea.
Ajuste fino del Modelo y validación del desempeño:
- El equipo de investigación comenzó recopilando un conjunto de datos de aproximadamente 100,000 interacciones entre pacientes y médicos del sitio web HealthCareMagic. Estos datos se filtraron tanto manual como automáticamente para garantizar su relevancia y precisión.
- Se utilizó un segundo conjunto de datos de aproximadamente 10,000 conversaciones del sitio web iCliniq para probar el rendimiento del modelo.
- Se creó una base de datos de conocimiento externo utilizando MedlinePlus, que sirve como una “mente” de conocimiento externa y fuera de línea para ChatDoctor.
- El modelo se afinó utilizando estos datos y se validó mediante experimentos extensos.
- Se eliminó cualquier información que identificara al médico o al paciente y se empleó LanguageTool para corregir errores gramaticales.
- Se diseñaron “prompts” de minería de palabras clave como el primer paso para que ChatDoctor extraiga términos clave de las consultas de los pacientes para una búsqueda de conocimiento relevante.
- Para la evaluación cuantitativa del rendimiento de ChatDoctor, se utilizaron preguntas de la base de datos de iCliniq como entradas, con las respuestas correspondientes de médicos humanos reales como referencia.
- Se empleó BERTScore para calcular la precisión, el recall y las puntuaciones F1 tanto para ChatDoctor como para ChatGPT.
Medidas y Puntuaciones:
Los investigadores emplearon BERTScore para calcular las puntuaciones Precisión, Recall y F1.
A continuación los resultados de evaluación de los dos modelos de lenguaje de IA generativa en términos de precisión, Recall y puntuación F1.
Los resultados indican lo siguiente:
Para el modelo ChatGPT:
- Precisión: Promedio de 0.837 con una desviación estándar de 0.0188.
- Recall: Promedio de 0.8445 con una desviación estándar de 0.0164.
- Puntuación F1: Promedio de 0.8406 con una desviación estándar de 0.0143.
Para el modelo ChatDoctor:
- Precisión: Promedio de 0.8444 con una desviación estándar de 0.0185.
- Recall: Promedio de 0.8451 con una desviación estándar de 0.0157.
- Puntuación F1: Promedio de 0.8446 con una desviación estándar de 0.0138.
Resultados y Conclusiones:
- El modelo ChatDoctor ajustado superó a ChatGPT en todas estas métricas.
- Se documentó una mejora significativa en la capacidad del modelo para entender las necesidades del paciente y proporcionar asesoramiento informado.
- Se documentaron mejoras en la precisión de las respuestas del modelo.
- ChatDoctor representa un avance significativo en modelos de lenguaje grandes médicos, demostrando una mejora significativa en la comprensión de las consultas de los pacientes y en la provisión de asesoramiento preciso.
- Dadas las altas exigencias y la baja tolerancia al error en el campo médico, tales mejoras son no solo beneficiosas sino esenciales.
Te comparto un pdf descargable con el resumen del artículo en 1 página:
reporte_dataset_ChatDoctorTe interesó este contenido?
Déjame tu nombre y correo en el formulario de contacto para notificarte sobre contenido relacionado que publique en este blog.
Accede a otras publicaciones sobre administración en salud, gestión clínica, e Inteligencia Artificial en Salud aquí.
Oscar Efrem García Fernández