alternatetext

Extracción aproximada de entidades médicas para la clasificación y codificación de documentos médicos (2020/0720/00098653)

(tiempo estimado de lectura 2 minutos)

Proyecto: Extracción aproximada de entidades médicas para la clasificación y codificación de documentos médicos (2020/0720/00098653)

Las terminologías clínicas son uno de los pilares básicos para la interoperabilidad de la información de salud. Proporcionan términos estandarizados para referenciar a un concepto clínico y por tanto permiten la representación consistente de la información y facilita su comunicación y comparación. Entre todas las terminología clínicas existentes destacamos SNOMED CT una terminología multilingüe que abarca una amplia gama de dominios médicos. Es considerada como la terminología más extensa e importante desarrollada a nivel mundial y contiene más de 350,000 conceptos en la actualidad.

El volumen de información codificada en base a una terminología y estructurada según un modelo de información es cada vez mayor en las historias clínicas electrónicas (HCE). Sin embargo, una gran parte de la información está todavía oculta en texto narrativo no estructurado y es un escenario que se espera que no cambie a corto-medio plazo. Por tanto, el tratamiento de textos narrativos es crítico para el uso y análisis de las HCE, dicho de otra manera, para aumentar la interoperabilidad semántica de la HCE.

No es de extrañar, por tanto, que la codificación clínica de documentos de acuerdo a una terminología es un trabajo común y rutinario en los centros sanitarios en todo el mundo. La codificación de documentos no estructurados requiere el uso de técnicas de procesado de lenguaje natural. Concretamente, las tareas principales son la identificación de entidades médicas relevantes, lo que se conoce como reconocimiento de entidades nombradas, y su mapeo a una terminología de referencia.

En Veratech hemos abordado este problema, para lo cual hemos desarrollado un proyecto cofinanciado por Red.es con el objetivo principal de desarrollar una herramienta para la identificación de menciones de entidades médicas en documentos clínicos narrativos y su mapeo a terminologías estándar con especial hincapié en SNOMED CT como terminología de referencia a nivel mundial. Se ha abordado el problema desde una perspectiva de extracción aproximada de entidades basada en diccionarios la cual consiste en identificar las subcadenas que se corresponden exclusivamente con entidades predefinidas en un diccionario. Los dos motivos principales para el uso de esta aproximación son: 1) es una aproximación que no requiere un corpus de entrenamiento cuyo desarrollo es muy costoso en recursos, 2) permite incorporar nuevos sinónimos fácilmente y por ende actualizar el sistema con nuevas versiones de la terminología. Esto es importante ya que se genera una nueva versión de la edición internacional de SNOMED CT cada mes.

En este enlace se puede encontrar un demostrador del sistema desarrollado para la terminología SNOMED CT con soporte a entidades del tipo enfermedad, procedimientos y fármacos. Este demostrador ofrece gran parte de la funcionalidad, aunque limita el tamaño del texto de entrada.