02/05/2025
Découvrez mes derniers projets et réalisations dans cette newsletter hebdomadaire.
OpenEdition est un portail de ressources électroniques en sciences humaines et sociales. Pour en savoir plus
Il s'agit d'une vaste librairie en ligne, regroupant en accès libre des ressources numériques de communication scientifique. A une époque où la défiance systématique (et souvent justifiée) envers les médias pose de vrais problèmes d'accès à l'information et de démocratie, ce dispositif est une bouffée d'oxygène.
Hypothèses constitue l'une de ses plateformes avec pour finalité la publication en ligne : il s'agit de mettre à disposition au plus grand nombre les recherches, les avancées, les questionnements scientifiques actuels, et gratuitement!
Par sa vocation de publication en ligne, Hypothèses utilise le BLOG pour rendre compte d'un très grand nombre d'actualités scientifiques :
Elle est ouverte prioritairement à la recherche académique mais la recherche indépendante y a aussi sa place, ce qui en fait un espace de reflexions riches et diversifiés.
Nous espérons participer à ce mouvement de partage des savoirs et des connaissances par notre petit blog ARCHNUM dont le but au départ était de rendre compte des pratiques numériques en archéologie ; et qui a évolué aujourd'hui vers la thématique Data et ses applications.
Une application de démonstration pour la gestion de la relation client (CRM), spécialement conçue pour le suivi des partenariats avec les entreprises, offrant une interface intuitive et des fonctionnalités complètes d'analyse et de reporting.
Explorer Démo CRM Relations Entreprises
L'écriture comme un outil alchimique de transformation des données complexes en récits captivants et accessibles.
"Les données sont des mots en attente, les mots sont des données vivantes."
Un agent conversationnel basé sur un personnage historique, démontrant l'application des techniques de traitement du langage naturel (NLP) pour créer une expérience interactive et éducative sur une oeuvre litteraire ancienne.**
Reliquiae Aquitanicae est une oeuvre majeure en archéolgie préhistorique (et en paléontologie), d'une part, elle démontre la préhistoire comme une discipline scientifique rigoureuse et, d'autre part, elle participe à interroger les origines de l'homme, à une époque où celles-ci se fondent d'abord sur un texte religieux comme la Bible.
Cette publication, dirigée par Édouard Lartet et Henry Christy, dans les années 1865-1875, représente donc l'une des premières études scientifiques systématiques des vestiges préhistoriques du Périgord et des régions avoisinantes du sud de la France.
Le but est bien d'interroger notre manière de lire face à des oeuvres anciennes : notre rapport à la lecture a été particulièrement modifié par le numérique, et bien qu'il ne soit jamais simple de les aborder, perdre cette "confrontation" entre cet objet médiatisé que représente ici l'ouvrage scientifique et ceux qui le lisent serait préjudiciable, à mon sens, à notre capacité à transmettre.
Autrement dit, la lecture et son pendant l'esprit critique sont des formes de mise en présence : il s'agit soit d'une proposition, soit d'une nécessité, d'exercer sa pensée. (Vaste débat que la mise en présence du texte...)
Il nous a semblé alors intéressant de créer cette sorte d'affontement (intellectuel et pacifiste!) à travers ces objectifs :
Au même titre que n'importe quelle analyse, celle-ci se base sur une méthodologie pour répondre à une problématique.
Nous avons fait appel à différents outils conceptuels comme l'ontologie et l'analyse méréologique pour organiser les informations du texte original.
L'objectif principal était une intégration explicite de l'ontologie et de la méréologie dans le processus de génération des réponses proposées par le modèle d'apprentissage.
Pourquoi ? Notre hypothèse de travail était de tester à une petite échelle si ces structures de contrôle pouvaient limiter les hallucinations (incohérences et anachronismes) en encadrant la "créativité" du modèle.
Si cette démarche vous intéresse, je vous renvoie vers mon carnet HYPOTHESES sur la plateforme OpenEdition à l'article suivant : Architecture conceptuelle d’un avatar historique : analyse textuelle intégrant une ontologie et analyse méréologique
Il s'agit d'un prototype pour tester la création d'une base de connaissances à partir de fichiers d'ontologie et de méréologie, celui-ci sera amené à encore évoluer.
Interagir avec l'Avatar Edouard Lartet
Note: il faut un compte STREAMLIT et le temps de chargement peut être assez long.
Il y a aussi de notre part l'idée d'une exploration des possibilités de l'IA générative dans ces outils :
Lartet & Christy 1865-1875, Lartet É., Christy H., Reliquiae Aquitanicae: being contributions to the archaeology and palaeontology of Perigord and the adjoining provinces of southern France; edited by Thomas Rupert Jones, London/Paris/Leipzig, Williams & Norgate/J.B. Baillière/A. Brockhaus, 1865-1875, 204 p., 79 pl. h.-t.
La vidéo présente ce jeune entrepreneur, Roy Lee, qui fait le buzz actuellement pour avoir triché sur des entretiens d'embauche, et qui se met ici en scène, se faisant mousser auprès de son date du moment grâce à son outil Cluely : un outil IA pour “cheat on everything.” ["tricher sur tout" - leur slogan (?!)]
L'histoire fait sourire... alala ces Américains (ou les hommes en général), l'autodérison dont fait preuve la nouvelle génération est plus qu'appréciable, bien que sous la blague le pavé : son bluff interpelle car son outil IA reste basé sur de l'apprentissage automatique, rien de révolutionnaire, mais le principe assumé de tricher pour réussir pose question ou devrait poser question.
Notre propos n'est pas de philosopher sur le caractère ethique de la tricherie, tout le monde triche dans la vie.
La vraie vie, c'est d'ailleurs ce que démontre magistralement Roy Lee dans sa vidéo de teasing avec son rancard : l'IA est finalement parfaitement intégrable à la vie normale (jolie projection pour sa promotion de produit!)
...Ces tours de hold-up mental sont fascinants.
Mais c'est en tombant sur l'historique de l'association AURORE qui aide les personnes les plus fragiles, et privées de vie normale, que la démarche m'a semblé plus difficile, dans les deux cas.
Fondée en 1872 à Paris et reconnue d'utilité publique en 1875, les statuts de cette association sont ainsi définis :
Là où je veux en venir... bien que cabossée, notre consicence sociétale (notre pacte social) se fonde aussi sur ces principes d'honnêteté et de labeur, depuis au moins le 19ème siècle.
Même si je me base d'un point de vue "vieux continent", les Etats-Unis partage aussi ces mêmes principes.
Alors prolongeons cette lecture vers la période trouble que traverse actuellement ce pays dans sa recherche identitaire : dans un système plombé par un racisme dit systémique, finalement pourquoi être honnête et dans l'effort? Dans ce cas, on doit aussi en déduire que, dans sa logique, la fin justifie les moyens.
...C'est un pari à 5.3 millions de dollars et cet étudiant vient de Columbia. Et on comprend aussi pourquoi il a été suspendu par son université.
Les forces idéologiques que font émerger les outils IA sont conséquents, ces crises identitaires ne sont pas propres aux Etats-Unis, nos repères peuvent sembler modifiés, on aurait tort de les voir uniquement comme de simples produits en plus dans notre panoplie.
Roy Lee compare d'ailleurs son outil à la calculatrice ou au correcteur orthographique (c'est déjà moins glamour!) mais il a raison sur ce point : nous déléguons ces tâches cognitives à des machines et plus personne aujourd'hui n'y voit à redire (...dans une vie normale)
Conclusion : l'outil IA n'est vraiment pas un problème dans nos vies.
Cet article résume un processus d'amélioration d'un système d'IA conversationnel nommé "Lartet", conçu pour simuler les interactions avec Édouard Lartet, un paléontologue et préhistorien français du 19ème siècle. Le système utilise une architecture d'apprentissage automatique pour générer des réponses informées à partir de passages de l'ouvrage "Reliquiae Aquitanicae".
L'analyse des logs et des réponses générées a permis d'identifier plusieurs défis:
La fonction extract_structured_info
a été optimisée pour éviter les doublons entre catégories:
```python
all_items = set() for category in list(info.keys()): unique_items = [] for item in info[category]: item_hash = hash(item) if item_hash not in all_items: all_items.add(item_hash) unique_items.append(item) info[category] = unique_items ```
Une fonction spécifique a été implémentée pour traiter les questions sur Henry Christy:
python
def get_christy_collaboration_response(self):
"""Fournit une réponse prédéfinie sur la collaboration avec Christy"""
if self.language == "fr":
return """
Je préfère ne pas m'étendre sur mes relations personnelles ou professionnelles...
"""
La fonction get_default_question
a été entièrement réécrite pour offrir des suggestions pertinentes sans mentionner Henry Christy:
```python def get_default_question(self, user_input: str) -> str: """Retourne une question par défaut basée sur la requête utilisateur.""" query_lower = user_input.lower()
if self.language == "fr":
default_questions = [
"Pouvez-vous me parler de vos principales découvertes au Périgord?",
# Autres questions...
]
```
Le système a été modifié pour présenter clairement les extraits en anglais tout en maintenant une structure en français:
```python
response_parts.append("## Note sur la langue") response_parts.append("Bien que mes publications scientifiques fussent rédigées en anglais, je vous présente ici une synthèse en français de mes travaux.") ```
Des fonctions ont été ajoutées pour exploiter les structures ontologiques et méréologiques:
python
def initialize_knowledge_base(self):
"""Charge et structure l'ontologie et la méréologie"""
self.structured_ontology = {}
self.structured_mereology = {}
# Traitement des données...
Les modifications ont permis d'obtenir:
Ce processus d'optimisation illustre les défis spécifiques de la création d'avatars historiques utilisant le RAG. Il souligne l'importance d'une adaptation fine des mécanismes de génération et de vérification pour produire des interactions authentiques et informatives.
L'amélioration de ce système démontre comment les techniques d'IA contemporaines peuvent être adaptées pour préserver et transmettre le patrimoine scientifique historique de manière interactive et engageante.