emplois Transcription Audio
Trier par : pertinence - date
- Université de Reims Champagne-ArdenneReims (51)
- Les contenus détectés sont projetés sur les trois vecteurs de valeur à l'aide de mesures d'information mutuelle héritées de l'axe 1, en s'appuyant sur des…
- Voir toutes les offres de type « Emploi Université de Reims Champagne-Ardenne », « Reims » ou Emploi Navigateur Timonier (H/F) - Reims (51) »
- Rechercher les salaires : Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial - Reims (51)
- Consulter les questions fréquentes sur Université de Reims Champagne-Ardenne et leurs réponses
- Mallow75009 Paris
- As a Narrative Designer, you will play a crucial role in developing and bringing to life a brand new type of content for children.
- Fluent in French and English.
- Voir toutes les offres de type « Emploi Mallow », « Paris » ou Emploi Designer - Paris (75) »
- Rechercher les salaires : Narrative designer - Paris (75)
Consultez les offres d'emploi similaires de cet employeurSigma GroupPolynésie française- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « Polynésie française » ou Emploi Linguist - Polynésie française »
- Rechercher les salaires : Tahitian Linguistic Projects - Latin Script (Remote)
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « France » ou Emploi Linguist - France »
- Rechercher les salaires : Friulian Linguistic Projects - Latin Script (Remote) - France
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « Corse » ou Emploi Linguist - Corse »
- Rechercher les salaires : Corsican Linguistic Projects (Remote) -- Sigma AI
- INSYCOParis (75)
- Identifier, adapter et fine-tuner des modèles open-source (vision, audio, parole, texte) pour des cas d'usage audiovisuels spécifiques.
- CV à jour en français.
- Voir toutes les offres de type « Emploi INSYCO », « Paris » ou Emploi Ml Engineer (H/F) - Paris (75) »
- Rechercher les salaires : ML Engineer : LLM multimodal et fine-tuning (IT) / Freelance - Paris (75)
Encadrant Technique / Moniteur d'atelier Prestations Industrielles H/F COURBAISSE
Répond souvent en 1 jourAdapei 6969008 Lyon 8e- Vous êtes volontaire pour animer des ateliers de transcription FALC avec des travailleurs après avoir été formé.
- Voir toutes les offres de type « Emploi Adapei 69 », « Lyon 8e » ou Emploi Moniteur Atelier (H/F) - Lyon 8e (69) »
- Rechercher les salaires : Encadrant Technique / Moniteur d'atelier Prestations Industrielles H/F COURBAISSE - Lyon 8e (69)
- Consulter les questions fréquentes sur Adapei 69 et leurs réponses
- padoa75017 Paris
- Contrat renouvelable
- Produire un code maintenable et robustement testé (unitaire, intégration, end2end).
- Mise en place et maintien d’un système de classification de données…
- Voir toutes les offres de type « Emploi padoa », « Paris » ou Emploi Développeur Full Stack (H/F) - Paris (75) »
- Rechercher les salaires : Talentpool Freelance - Développeur Fullstack Senior - Squad IA F/H - Paris (75)
- padoa75017 Paris
- Contrat renouvelable
- Produire un code maintenable et robustement testé (unitaire, intégration, end2end).
- Mise en place et maintien d’un système de classification de données…
- Voir toutes les offres de type « Emploi padoa », « Paris » ou Emploi Développeur Full Stack (H/F) - Paris (75) »
- Rechercher les salaires : Talentpool Freelance - Développeur Fullstack Senior - Squad IA F/H - Paris (75)
- LinagoraToulouse (31)
- Familiarité avec le traitement du signal audio (parole) et le domaine du traitement du langage naturel, y compris la transcription automatique de la parole et…
- Voir toutes les offres de type « Emploi Linagora », « Toulouse » ou Emploi Développeur Python (H/F) - Toulouse (31) »
- Rechercher les salaires : R&D Engineer - Développement Python (H/F) - Toulouse (31)
- Consulter les questions fréquentes sur Linagora et leurs réponses
- Sigma GroupFrance
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « France » ou Emploi Linguist - France »
- Rechercher les salaires : Occitan Linguistic Projects - Latin Script (Remote) -- Sigma AI - France
- Sigma GroupFrance
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « France » ou Emploi Linguist - France »
- Rechercher les salaires : Ligurian linguistic projects - Latin Script (Remote) - France
- Sigma GroupParis (75)
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « Paris » ou Emploi Linguist - Paris (75) »
- Rechercher les salaires : Seselwa Creole French Linguistic Projects- Latin Script (Remote) -- Sigma AI - Paris (75)
- Sigma GroupFrance
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « France » ou Emploi Linguist - France »
- Rechercher les salaires : Luxembourgish linguistic projects - Latin Script (Remote) - France
- Categorization – Annotation – Correction – Transcription – Evaluation – Conversational interactions – Voice recording – Content creation – Localization –…
- Voir toutes les offres de type « Emploi Sigma Group », « France » ou Emploi Linguist - France »
- Rechercher les salaires : French Linguistic Projects (Remote) - France
- ElevenLabsFrance
- Prior experience in transcription or subtitling and familiarity with relevant tools.
- Experience using the ElevenLabs platform and/or other AI-assisted…
- Voir toutes les offres de type « Emploi ElevenLabs », « France » ou Emploi Freelancer - France »
- Rechercher les salaires : Transcription / Subtitling Specialist (Freelance) - France
Les chercheurs d'emploi ont également recherché :
Job Post Details
Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial - job post
3.93.9/5 étoiles
Reims (51)
CDD
Créez un compte Indeed avant de continuer sur le site web de l'entreprise.
Détails de l'emploi
Type de poste
- CDD
Lieu
Reims (51)
Description du poste
Réf ABG-139478 Sujet de Thèse
09/06/2026 Cifre
Université de Reims Champagne-Ardenne
Lieu de travail
Reims - Grand Est - France
Intitulé du sujet
Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial
Champs scientifiques
Science de la donnée (stockage, sécurité, mesure, analyse)
Informatique
Mots clés
NLP industriel, ambiguïté, théorie de l'information, modélisation hiérarchique bayésienne, Spoken Language Understanding, Intent Classification, Slot Filling, graphes de connaissances hiérarchiques et neurosymboliques, schémas d'adressage commercial, méthode MSMKC, valeur persuasive, apprentissage en contexte de données non labellisées
Description du sujet
L'objectif global de cette thèse CIFRE est de développer des modèles d'aide à la décision en temps réel pour automatiser la construction et la navigation dans les schémas d'adressage produits par la méthode MSMKC. Deux axes structurent les travaux.
Axe 1 — Construction automatisée des schémas d'adressage.
Le premier axe vise à automatiser les étapes 2 à 4 de la méthode MSMKC, à savoir le regroupement en idées-clés, l'agrégation en cas d'usage et l'assemblage en vitrines, sans disposer de données massivement labellisées. Ce problème s'inscrit à l'intersection de trois champs de recherche. L'argument mining a formalisé l'extraction automatique de key points depuis des collections de phrases argumentatives, en proposant des cadres de résumé quantitatif permettant de regrouper et de reformuler automatiquement des arguments redondants en formulations courtes et dédupliquées. La construction automatique de taxonomies par LLMs a quant à elle démontré la capacité de ces modèles à produire des structures hiérarchiques cohérentes par extraction de terminologie, clustering sémantique et raffinement itératif. Les approches de type GraphRAG organisent enfin hiérarchiquement un corpus brut en extrayant entités et relations via un LLM, en détectant des communautés sémantiques par algorithme de Leiden, puis en générant des résumés par niveau exploitables à la requête. Ces travaux constituent des précédents directs, mais ne prennent pas en charge les contraintes de cohérence et de parcimonie imposées ici par les trois vecteurs de valeur persuasive.
Deux pistes complémentaires sont explorées pour lever ces verrous. La première formalise la construction du schéma comme un processus itératif de co-construction humain-machine (Human-in-the-Loop), dans la lignée des systèmes RAG et des pipelines interactifs de construction de graphes de connaissances. Le commercial affine itérativement le schéma par ses requêtes ; la théorie de l'information guide mathématiquement la convergence, via l'information mutuelle pour sélectionner et ordonner les arguments les plus pertinents, et la divergence de Kullback-Leibler pour quantifier les écarts entre représentations candidates. La seconde adopte une stratégie non supervisée pour cartographier les relations latentes entre silos documentaires hétérogènes, en déployant une modélisation hiérarchique bayésienne complétée par des approches fondées sur l'estimation neuronale de l'information mutuelle et les auto-encodeurs variationnels semi-supervisés.
Axe 2 — Navigation conversationnelle en temps réel dans le schéma d'adressage.
Le second axe intègre le flux audio des appels commerciaux pour assister le vendeur en direct, en projetant les signaux conversationnels détectés sur les trois vecteurs de valeur persuasive afin de naviguer dynamiquement dans le schéma construit par l'axe 1.
Une première piste exploite des frameworks de transcription et d'analyse conversationnelle en streaming pour produire, phrase par phrase, une analyse conjointe du sentiment (texte et prosodie) et de l'intention du client via des modèles end-to-end de compréhension du langage parlé (Spoken Language Understanding, SLU) multimodaux, combinant classification d'intention (Intent Classification) et extraction de slots (Slot Filling). Les contenus détectés sont projetés sur les trois vecteurs de valeur à l'aide de mesures d'information mutuelle héritées de l'axe 1, en s'appuyant sur des modèles d'embeddings audio tels que Speech2Vec. Cette projection permet de sélectionner dynamiquement les branches pertinentes du schéma en maximisant la pertinence informationnelle vis-à-vis du retour client et en minimisant l'entropie des chemins explorés.
Une seconde piste s'appuie sur les graphes de connaissances construits par l'axe 1, en les enrichissant d'une couche neurosymbolique. Ce paradigme, qui combine représentations neurales et raisonnement symbolique pour tirer parti de leurs forces complémentaires, a fait l'objet d'une attention croissante pour le raisonnement sur des structures hiérarchiques : il offre notamment interprétabilité et intégration de connaissances expertes, deux propriétés essentielles dans un contexte commercial où les décisions du vendeur doivent rester auditables. Des travaux récents ont par ailleurs montré que des graphes de connaissances dynamiques, mis à jour au fil du dialogue, permettent d'améliorer significativement la cohérence et la pertinence des réponses générées. Cette piste exploite ces avancées pour assurer deux fonctions complémentaires via une boucle de rétroaction dynamique : d'une part, naviguer dans le graphe en fonction de l'intention et du sentiment détectés, avec suggestion proactive de questions ou de vitrines au commercial ; d'autre part, mettre à jour la structure en temps réel par repondération bayésienne des branches, détection et résolution automatiques d'incohérences, et fusion ou suppression de clés d'interprétation redondantes.
La robustesse du système sera renforcée par des approches d'alignement intermodal projetant l'espace audio sur les espaces textuels et sémantiques de l'axe 1, ainsi que par des modèles récents de compréhension du langage parlé, notamment des transformers multimodaux et des LLMs fine-tunés sur le domaine commercial, intégrant des modèles graphème-phonème. Adaptés sur les données annotées produites par les travaux de la thèse précédente, ces modèles permettront une détection fine des intentions tout en gérant l'ambiguïté déjà formalisée. L'évaluation portera sur des jeux de données réels d'appels anonymisés, selon trois familles de métriques : précision de navigation (correspondance entre chemin suggéré et vecteur prioritaire), impact opérationnel (temps de réponse du commercial, taux de conversion) et robustesse aux biais (accents, bruit de fond, spécificités du français). Des extensions possibles incluront l'apprentissage actif pour le raffinement continu des schémas à partir des retours clients.
Prise de fonction :
01/09/2026
Nature du financement
Cifre
Précisions sur le financement
Présentation établissement et labo d'accueil
Université de Reims Champagne-Ardenne
Pour structurer son activité d'adressage commercial en B2B, la société Chochoy Conseil a conçu la méthode propriétaire MSMKC. S'inscrivant dans la filiation des travaux de sciences de gestion sur le comportement d'achat industriel (Organizational Buying Behaviour) et de la théorie des valeurs de consommation, elle repose sur le postulat que la décision d'un acheteur institutionnel est gouvernée par une intention d'achat que l'on peut décomposer selon 3 vecteurs de valeur persuasive : le retour sur l’investissement (gains opérationnels), la notoriété (image de marque, expérience utilisateur) et l'obligation (conformité réglementaire, sécurité). L'objectif final de la méthode est de produire un schéma d'adressage sous la forme d’une carte hiérarchique qui résume, pour un secteur ou une organisation cible, les arguments commerciaux les plus pertinents, organisés selon les 3 vecteurs de valeur. Ce schéma sert de support opérationnel aux commerciaux pour préparer et conduire les échanges. Sa construction part du texte brut et remonte progressivement vers la structure en 4 étapes :
De documents bruts à des phrases pertinentes. À partir de documents hétérogènes (brochures, sites web, livres blancs, documents techniques), les phrases qui portent un argument persuasif sont identifiées puis classées selon le vecteur de valeur qu'elles activent. Cette étape mobilise les fondations de la psychologie de la persuasion et le traitement automatisé des langues naturelles (NLP) pour leur opérationnalisation récente lors de la détection de stratégies persuasives et de signaux d'intention d'achat dans le discours commercial.
De phrases à des idées-clés. Plusieurs phrases peuvent exprimer la même idée commerciale avec des mots différents. Cette étape les regroupe et les reformule en idées-clés unitaires, c'est-à-dire des formulations courtes, dédupliquées, qui captent un seul argument atomique.
D'idées-clés à des cas d'usage. Les idées-clés isolées ne suffisent pas à convaincre, car un argument prend sens dans un scénario métier. Par conséquent, lors de cette étape, les idées-clés sont agrégées en cas d'usage en tenant compte des dépendances entre elles (maturité du marché, ordre temporel, incohérences techniques ou économiques à éviter) dans la lignée de la chaîne moyens-fins.
De cas d'usage à un schéma d'adressage. Les cas d'usage sont enfin hiérarchisés et assemblés en un schéma visuel organisé selon les 3 vecteurs de valeur qui est utilisé par des commerciaux.
Le passage d'une production artisanale, réalisée à la main par des experts métier, à une industrialisation automatisée fait émerger de nouvelles tâches pour le traitement automatique du langage naturel (NLP) qui dépassent l'état de l'art standard centré sur l'extraction de faits objectifs ou l'analyse de sentiment. Plusieurs verrous fondamentaux ont déjà été levés dans le cadre d'une première thèse CIFRE : clarification conceptuelle de la valeur persuasive et de son ambiguïté intrinsèque, en s'inscrivant dans les travaux récents qui considèrent le désaccord d'annotation comme un signal et non comme du bruit ; diagnostic topologique du comportement des modèles Transformers face à ces désaccords ; formalisation d'un guide d'annotation reproductible ; conception d'un framework d'audit décomposé en critères binaires explicites évalués par probing de grands modèles de langue (LLM) permettant de contourner l'absence de données massivement labellisées.
Ces avancées ont validé les premières étapes du pipeline, à savoir l'extraction et la classification de phrases persuasives en contexte de données rares en facilitant grandement la construction, manuelle, des schémas d’adressage. Deux défis majeurs restent ouverts pour la suite du processus : i) la génération automatisée du schéma d'adressage complet (étapes 2 à 4), dont la densité et la structure doivent s'adapter à l'organisation ciblée, sous contraintes de cohérence, de parcimonie et d'interprétabilité ; ii) la navigation en temps réel dans ce schéma durant un échange commercial, à partir du flux conversationnel audio, pour reconfigurer dynamiquement les arguments suggérés au vendeur en fonction des objections et signaux exprimés par le prospect.
Profil du candidat
Profil et compétences scientifiques :
Formation : Bac+5 (école d'ingénieurs ou master) en data science, mathématiques appliquées ou informatique.
Expertise technique : Connaissances avancées en machine learning, NLP et/ou traitement de signaux audio, éprouvées lors d'un stage de fin d'études.
Théorie de l'information : Des connaissances solides dans ce domaine constituent un véritable atout.
Programmation : Très bonne maîtrise du langage Python et aisance avec les environnements de développement standards (TensorFlow, PyTorch, Keras, Pandas, Scikit-learn) pour implémenter et tester les méthodes proposées.
Rigueur : Esprit d’initiative, d’analyse, méthode et rigueur dans le travail de recherche.
Qualités humaines et linguistiques:
Motivation et posture : Motivation très importante, curiosité intellectuelle, autonomie et passion pour les projets en sciences des données.
Esprit d'équipe et d'entreprise : Bon relationnel, esprit d'entreprise et aptitude à travailler en équipe, avec la capacité de mener un projet de recherche à l'interface entre une société privée (Chochoy Conseil) et un laboratoire public (CReSTIC).
Compétences linguistiques : Maîtrise indispensable du français et de l’anglais (lu, écrit, parlé).
Date limite de candidature
30/06/2026
09/06/2026 Cifre
Université de Reims Champagne-Ardenne
Lieu de travail
Reims - Grand Est - France
Intitulé du sujet
Thèse CIFRE IA conversationnelle pour la vente B2B : Génération automatique et navigation dynamique dans des graphes d'adressage commercial
Champs scientifiques
Science de la donnée (stockage, sécurité, mesure, analyse)
Informatique
Mots clés
NLP industriel, ambiguïté, théorie de l'information, modélisation hiérarchique bayésienne, Spoken Language Understanding, Intent Classification, Slot Filling, graphes de connaissances hiérarchiques et neurosymboliques, schémas d'adressage commercial, méthode MSMKC, valeur persuasive, apprentissage en contexte de données non labellisées
Description du sujet
L'objectif global de cette thèse CIFRE est de développer des modèles d'aide à la décision en temps réel pour automatiser la construction et la navigation dans les schémas d'adressage produits par la méthode MSMKC. Deux axes structurent les travaux.
Axe 1 — Construction automatisée des schémas d'adressage.
Le premier axe vise à automatiser les étapes 2 à 4 de la méthode MSMKC, à savoir le regroupement en idées-clés, l'agrégation en cas d'usage et l'assemblage en vitrines, sans disposer de données massivement labellisées. Ce problème s'inscrit à l'intersection de trois champs de recherche. L'argument mining a formalisé l'extraction automatique de key points depuis des collections de phrases argumentatives, en proposant des cadres de résumé quantitatif permettant de regrouper et de reformuler automatiquement des arguments redondants en formulations courtes et dédupliquées. La construction automatique de taxonomies par LLMs a quant à elle démontré la capacité de ces modèles à produire des structures hiérarchiques cohérentes par extraction de terminologie, clustering sémantique et raffinement itératif. Les approches de type GraphRAG organisent enfin hiérarchiquement un corpus brut en extrayant entités et relations via un LLM, en détectant des communautés sémantiques par algorithme de Leiden, puis en générant des résumés par niveau exploitables à la requête. Ces travaux constituent des précédents directs, mais ne prennent pas en charge les contraintes de cohérence et de parcimonie imposées ici par les trois vecteurs de valeur persuasive.
Deux pistes complémentaires sont explorées pour lever ces verrous. La première formalise la construction du schéma comme un processus itératif de co-construction humain-machine (Human-in-the-Loop), dans la lignée des systèmes RAG et des pipelines interactifs de construction de graphes de connaissances. Le commercial affine itérativement le schéma par ses requêtes ; la théorie de l'information guide mathématiquement la convergence, via l'information mutuelle pour sélectionner et ordonner les arguments les plus pertinents, et la divergence de Kullback-Leibler pour quantifier les écarts entre représentations candidates. La seconde adopte une stratégie non supervisée pour cartographier les relations latentes entre silos documentaires hétérogènes, en déployant une modélisation hiérarchique bayésienne complétée par des approches fondées sur l'estimation neuronale de l'information mutuelle et les auto-encodeurs variationnels semi-supervisés.
Axe 2 — Navigation conversationnelle en temps réel dans le schéma d'adressage.
Le second axe intègre le flux audio des appels commerciaux pour assister le vendeur en direct, en projetant les signaux conversationnels détectés sur les trois vecteurs de valeur persuasive afin de naviguer dynamiquement dans le schéma construit par l'axe 1.
Une première piste exploite des frameworks de transcription et d'analyse conversationnelle en streaming pour produire, phrase par phrase, une analyse conjointe du sentiment (texte et prosodie) et de l'intention du client via des modèles end-to-end de compréhension du langage parlé (Spoken Language Understanding, SLU) multimodaux, combinant classification d'intention (Intent Classification) et extraction de slots (Slot Filling). Les contenus détectés sont projetés sur les trois vecteurs de valeur à l'aide de mesures d'information mutuelle héritées de l'axe 1, en s'appuyant sur des modèles d'embeddings audio tels que Speech2Vec. Cette projection permet de sélectionner dynamiquement les branches pertinentes du schéma en maximisant la pertinence informationnelle vis-à-vis du retour client et en minimisant l'entropie des chemins explorés.
Une seconde piste s'appuie sur les graphes de connaissances construits par l'axe 1, en les enrichissant d'une couche neurosymbolique. Ce paradigme, qui combine représentations neurales et raisonnement symbolique pour tirer parti de leurs forces complémentaires, a fait l'objet d'une attention croissante pour le raisonnement sur des structures hiérarchiques : il offre notamment interprétabilité et intégration de connaissances expertes, deux propriétés essentielles dans un contexte commercial où les décisions du vendeur doivent rester auditables. Des travaux récents ont par ailleurs montré que des graphes de connaissances dynamiques, mis à jour au fil du dialogue, permettent d'améliorer significativement la cohérence et la pertinence des réponses générées. Cette piste exploite ces avancées pour assurer deux fonctions complémentaires via une boucle de rétroaction dynamique : d'une part, naviguer dans le graphe en fonction de l'intention et du sentiment détectés, avec suggestion proactive de questions ou de vitrines au commercial ; d'autre part, mettre à jour la structure en temps réel par repondération bayésienne des branches, détection et résolution automatiques d'incohérences, et fusion ou suppression de clés d'interprétation redondantes.
La robustesse du système sera renforcée par des approches d'alignement intermodal projetant l'espace audio sur les espaces textuels et sémantiques de l'axe 1, ainsi que par des modèles récents de compréhension du langage parlé, notamment des transformers multimodaux et des LLMs fine-tunés sur le domaine commercial, intégrant des modèles graphème-phonème. Adaptés sur les données annotées produites par les travaux de la thèse précédente, ces modèles permettront une détection fine des intentions tout en gérant l'ambiguïté déjà formalisée. L'évaluation portera sur des jeux de données réels d'appels anonymisés, selon trois familles de métriques : précision de navigation (correspondance entre chemin suggéré et vecteur prioritaire), impact opérationnel (temps de réponse du commercial, taux de conversion) et robustesse aux biais (accents, bruit de fond, spécificités du français). Des extensions possibles incluront l'apprentissage actif pour le raffinement continu des schémas à partir des retours clients.
Prise de fonction :
01/09/2026
Nature du financement
Cifre
Précisions sur le financement
Présentation établissement et labo d'accueil
Université de Reims Champagne-Ardenne
Pour structurer son activité d'adressage commercial en B2B, la société Chochoy Conseil a conçu la méthode propriétaire MSMKC. S'inscrivant dans la filiation des travaux de sciences de gestion sur le comportement d'achat industriel (Organizational Buying Behaviour) et de la théorie des valeurs de consommation, elle repose sur le postulat que la décision d'un acheteur institutionnel est gouvernée par une intention d'achat que l'on peut décomposer selon 3 vecteurs de valeur persuasive : le retour sur l’investissement (gains opérationnels), la notoriété (image de marque, expérience utilisateur) et l'obligation (conformité réglementaire, sécurité). L'objectif final de la méthode est de produire un schéma d'adressage sous la forme d’une carte hiérarchique qui résume, pour un secteur ou une organisation cible, les arguments commerciaux les plus pertinents, organisés selon les 3 vecteurs de valeur. Ce schéma sert de support opérationnel aux commerciaux pour préparer et conduire les échanges. Sa construction part du texte brut et remonte progressivement vers la structure en 4 étapes :
De documents bruts à des phrases pertinentes. À partir de documents hétérogènes (brochures, sites web, livres blancs, documents techniques), les phrases qui portent un argument persuasif sont identifiées puis classées selon le vecteur de valeur qu'elles activent. Cette étape mobilise les fondations de la psychologie de la persuasion et le traitement automatisé des langues naturelles (NLP) pour leur opérationnalisation récente lors de la détection de stratégies persuasives et de signaux d'intention d'achat dans le discours commercial.
De phrases à des idées-clés. Plusieurs phrases peuvent exprimer la même idée commerciale avec des mots différents. Cette étape les regroupe et les reformule en idées-clés unitaires, c'est-à-dire des formulations courtes, dédupliquées, qui captent un seul argument atomique.
D'idées-clés à des cas d'usage. Les idées-clés isolées ne suffisent pas à convaincre, car un argument prend sens dans un scénario métier. Par conséquent, lors de cette étape, les idées-clés sont agrégées en cas d'usage en tenant compte des dépendances entre elles (maturité du marché, ordre temporel, incohérences techniques ou économiques à éviter) dans la lignée de la chaîne moyens-fins.
De cas d'usage à un schéma d'adressage. Les cas d'usage sont enfin hiérarchisés et assemblés en un schéma visuel organisé selon les 3 vecteurs de valeur qui est utilisé par des commerciaux.
Le passage d'une production artisanale, réalisée à la main par des experts métier, à une industrialisation automatisée fait émerger de nouvelles tâches pour le traitement automatique du langage naturel (NLP) qui dépassent l'état de l'art standard centré sur l'extraction de faits objectifs ou l'analyse de sentiment. Plusieurs verrous fondamentaux ont déjà été levés dans le cadre d'une première thèse CIFRE : clarification conceptuelle de la valeur persuasive et de son ambiguïté intrinsèque, en s'inscrivant dans les travaux récents qui considèrent le désaccord d'annotation comme un signal et non comme du bruit ; diagnostic topologique du comportement des modèles Transformers face à ces désaccords ; formalisation d'un guide d'annotation reproductible ; conception d'un framework d'audit décomposé en critères binaires explicites évalués par probing de grands modèles de langue (LLM) permettant de contourner l'absence de données massivement labellisées.
Ces avancées ont validé les premières étapes du pipeline, à savoir l'extraction et la classification de phrases persuasives en contexte de données rares en facilitant grandement la construction, manuelle, des schémas d’adressage. Deux défis majeurs restent ouverts pour la suite du processus : i) la génération automatisée du schéma d'adressage complet (étapes 2 à 4), dont la densité et la structure doivent s'adapter à l'organisation ciblée, sous contraintes de cohérence, de parcimonie et d'interprétabilité ; ii) la navigation en temps réel dans ce schéma durant un échange commercial, à partir du flux conversationnel audio, pour reconfigurer dynamiquement les arguments suggérés au vendeur en fonction des objections et signaux exprimés par le prospect.
Profil du candidat
Profil et compétences scientifiques :
Formation : Bac+5 (école d'ingénieurs ou master) en data science, mathématiques appliquées ou informatique.
Expertise technique : Connaissances avancées en machine learning, NLP et/ou traitement de signaux audio, éprouvées lors d'un stage de fin d'études.
Théorie de l'information : Des connaissances solides dans ce domaine constituent un véritable atout.
Programmation : Très bonne maîtrise du langage Python et aisance avec les environnements de développement standards (TensorFlow, PyTorch, Keras, Pandas, Scikit-learn) pour implémenter et tester les méthodes proposées.
Rigueur : Esprit d’initiative, d’analyse, méthode et rigueur dans le travail de recherche.
Qualités humaines et linguistiques:
Motivation et posture : Motivation très importante, curiosité intellectuelle, autonomie et passion pour les projets en sciences des données.
Esprit d'équipe et d'entreprise : Bon relationnel, esprit d'entreprise et aptitude à travailler en équipe, avec la capacité de mener un projet de recherche à l'interface entre une société privée (Chochoy Conseil) et un laboratoire public (CReSTIC).
Compétences linguistiques : Maîtrise indispensable du français et de l’anglais (lu, écrit, parlé).
Date limite de candidature
30/06/2026
Permettez aux employeurs de vous trouver.Téléchargez votre CV