La conférence Extraction et Gestion des Connaissances - EGC est un événement annuel réunissant des chercheurs et praticiens de disciplines relevant des sciences des données et des connaissances. Ces disciplines incluent notamment l’apprentissage automatique, l’ingénierie et la représentation de connaissances, le raisonnement sur des données et des connaissances, la fouille et l’analyse de données, les systèmes d’information, les bases de données, le web sémantique et les données ouvertes, etc. Tous les travaux innovants portant sur ces thèmes sont les bienvenus. La conférence EGC est l’occasion de faire se rencontrer académiques et industriels afin de confronter des travaux théoriques et des applications pratiques sur des données réelles et de communiquer des travaux de qualité, d’échanger et de favoriser la fertilisation croisée des idées, à travers la présentation de travaux de recherche récents, de développements industriels et d’applications originales.

Résumé :

 "Cet article explore l'intégration d'un traitement symbolique des sorties d'un modèle de langage LLM pour obtenir une extraction d'événements à haute granularité. Les arguments développés démontrent que la faiblesse des LLM dans la production d'informations structurées, souvent soulignée dans la littérature, peut être surmontée en concevant une fonction d'appariement (hybridation) adaptée au domaine.

Afin de prouver cette affirmation, nous avons comparé les résultats d'une méthode d'apprentissage en contexte avec notre approche hybride et nous montrons que cette dernière permet d'obtenir des résultats supérieurs (+6,3 %)sur un nouvel ensemble de données de triplets sujet-prédicat-objet dans le domaine médical (681 triplets pour 200 phrases). Ce résultat est obtenu en laissant le LLM (Llama-3) libre de générer les types de prédicats avec lesquels il est le plus familier, et en appliquant à posteriori une fonction de normalisation".

"Outre l'amélioration de l'explicabilité et de la contrôlabilité de la sortie, l'intervention d'une telle fonction qui a été mise en œuvre en 5 jours permet de réduire de moitié les émissions de gaz à effet de serre nécessaires au traitement du corpus".

=> Cette technologie innovante répond aux critères d'explicabilité et de frugalité indispensables à ce jour au traitement efficient des données en sortie des LLM...

Pierre Jourlin, enseignant chercheur - janvier 2025 - Conférence ECG Strasbourg