Tartaglia: Explotación y extensión del Modelo de Datos Común OMOP para Impulsar la Inteligencia Artificial y la Medicina de Precisión
En Europa y España se almacenan grandes cantidades de datos de salud, aunque estos suelen estar dispersos en sistemas aislados, lo que dificulta su uso efectivo en investigación clínica y en el desarrollo de modelos de inteligencia artificial (IA). Para solventar esta situación, el reto principal es construir un entorno colaborativo y seguro que permita compartir datos de salud de manera conjunta, asegurando que permanezcan en los centros asistenciales, es decir, conservando su autonomía. En el área de la IA esto se plasma en el aprendizaje federado, donde diversas fuentes de datos colaboran, pero preservando la privacidad de los datos al permitir el desarrollo de modelos sin necesidad de trasladarlos fuera de los centros. Este enfoque tiene el potencial de impulsar la innovación en IA al disponer de una mayor cantidad de datos de entrenamiento, de mejorar la competitividad de las empresas, fomentar también la creación de empleo especializado y cumplir con normativas como el GDPR (Reglamento General de Protección de Datos).
¿Qué es TartaglIA?
TartaglIA es una red federada de inteligencia artificial diseñada para mejorar la investigación clínica y sanitaria en España. Esta iniciativa, está impulsada y liderada por GMV y se enmarca en el programa Misiones de I+D en Inteligencia Artificial de la agenda España Digital 2025 y de la Estrategia Nacional de Inteligencia Artificial, financiada por la Unión Europea a través de los fondos Next Generation EU. Está constituido por un consorcio de otras 15 entidades públicas y privadas, entre las que se encuentra Veratech, y busca acelerar el uso de la IA en diversas áreas médicas.
Uno de los principales objetivos es optimizar el entrenamiento de modelos matemáticos que apoyen la toma de decisiones clínicas, con el fin de promover la medicina personalizada y de precisión.
Entre sus aplicaciones más destacadas, Tartaglia se centra en el diagnóstico en cuatro áreas clave: Alzheimer, cáncer de próstata, diabetes y patologías crónicas complejas. Utiliza técnicas avanzadas de IA para guiar en la obtención de imagen médica ultrasonido con calidad diagnóstica, así como para el análisis de grandes volúmenes datos clínicos, tanto estructurados como no estructurados. La red federada permite que las entidades propietarias de datos colaboren sin comprometer la seguridad y privacidad de sus datos. Cada centro posee un nodo de computación dentro de la Red Federada de Aprendizaje. Es la Red Federada la que mueve los modelos de aprendizaje a estos nodos que almacenan los datos, y no al contrario, siguiendo el procedimiento que aparece en la siguiente imagen:
¿Cuál es el papel de Veratech en el proyecto TartaglIA?
Para que los modelos de inteligencia artificial se entrenen de manera efectiva y eficiente, los datos en cada nodo deben estar armonizados o estandarizados siguiendo un formato común. Esto garantiza que, aunque los datos se encuentren en distintos lugares, puedan ser accedidos e interpretados de manera consistente y uniforme por los modelos de IA tanto en fase de entrenamiento como en la de uso clínico.
Si los datos en cada nodo no son conformes a un modelo de datos común, el proceso de entrenamiento se complica enormemente al tener que trabajar con diversos formatos, y lo que es aún más difícil, con distintas semánticas. Esto puede dar lugar a incompatibilidades o incoherencias al analizar los diferentes conjuntos de datos, cuyos resultados serán menos precisos o útiles. Por tanto, la armonización es crucial para que el aprendizaje federado funcione correctamente y se obtengan modelos robustos.
En el marco del proyecto TartaglIA, Veratech, es líder del paquete de trabajo centrado en investigar métodos y técnicas para facilitar la creación de repositorios de datos estandarizados siguiendo el modelo de datos común OMOP (OMOP CDM), a partir de datos clínicos heterogéneos. Se ha investigado en métodos para la conversión a OMOP datos representados en otros estándares de Historia Clínica Electrónica como OpenEHR. Además, puesto que se quería cargar datos no estructurados (imágenes) a OMOP CDM, se ha llevado a cabo la investigación de una nueva extensión de OMOP CDM junto con FISABIO para almacenar distintas modalidades de imagen y sus metadatos. Este trabajo se ha resuelto con la incorporación de dos nuevas tablas de imagen al modelo de datos común de OMOP. También, ha favorecido al desarrollo del estudio y de la aplicación de estándares de salud como DICOM y MIDS en pasos intermedios para la carga posterior de estas imágenes y sus metadatos a OMOP CDM Extendido.
Todas estas investigaciones se han puesto en práctica en los paquetes de trabajo en los que se ha trabajado para armonizar datos clínicos de interés de pacientes con cáncer de próstata, Alzheimer o retinopatía diabética. También se ha armonizado metainformación de imágenes de resonancia magnética de próstata, de anatomía patológica de biopsias de próstata, resonancia magnética de cerebro y retinografías de ojo.
Así pues, en estos paquetes de trabajo, Veratech ha llevado a cabo la armonización de las distintas fuentes de datos al modelo de datos común (OMOP CDM), cuyo origen se encuentra en los repositorios de los socios suministradores de datos de cada caso. Como se ha comentado, las fuentes de datos son heterogéneas y presentan diferencias en estructura, granularidad, terminología y semántica. La armonización de los datos clínicos e imágenes es fundamental para el posterior entrenamiento de los modelos para cada caso de uso. Inicialmente fue necesario un primer trabajo de investigación y creación de unas guías de normalización para la estandarización de las variables clínicas de interés, sus unidades y sus rangos permitidos. Aun así, la mayor parte del trabajo ha consistido en la creación de procesos complejos de ETL (Extract, Transform, Load), especialmente en la transformación de datos y el entendimiento y aplicación, por primera vez, de la extensión de imagen de OMOP CDM. Posteriormente, los datos se han cargado a nivel local en OMOP CDM en cada uno de los centros proveedores de datos de los distintos paquetes de trabajo. Por último, se han especificado las consultas que obtienen variables y metadatos de interés en función del modelo de IA a entrenar. El resultado de estas consultas es la entrada a los procesos de entrenamiento de los modelos de IA.
El esquema que se ha seguido en Tartaglia se muestra a continuación:
Así pues, el proyecto TartaglIA ha supuesto un avance en la investigación clínica mediante el uso de estándares de datos de salud y técnicas de inteligencia artificial en un entorno federado. Ya que la creación de herramientas de soporte a la decisión clínica es crucial para mejorar la calidad y la seguridad de la atención médica. Además, a través de TartaglIA se ha fomentado la colaboración entre diversas instituciones nacionales de distinta naturaleza impulsando la innovación en salud.
Desde Veratech estamos satisfechos de haber podido colaborar en este innovador proyecto aportando nuestros conocimientos y experiencia en la investigación y armonización de las fuentes de datos ya existentes en las organizaciones a OMOP CDM extendido con datos de imagen médica. Con nuestro trabajo, hemos añadido un caso de éxito más a través del uso de OMOP CDM y la red federada de inteligencia artificial que permite generar.