Tuesday, March 25, 2014

[stage] Translitteration des noms propres pour l'extraction d'entites nommees

[stage] Translitteration des noms propres pour l'extraction d'entites nommees, IRT SystemX, Palaiseau
(25/03/2014)


De : SEMMAR Nasredine 202247 nasredine.semmar [ chez ] cea.fr



Proposition de stage : Translittération des noms propres pour
l’extraction d’entités nommées

Lieu du stage : IRT SystemX, 8 avenue de la Vauve, 91190 Palaiseau

CONTEXTE :

L’IRT SystemX est un institut de R D thématique interdisciplinaire
rassemblant les compétences de l’industrie et de la recherche publique
dans une logique de co-investissement public-privé : Alstom, Bull,
Campus Paris-Saclay, INRIA, Institut Mines Telecom, Kalray, OVH,
Renault, Sherpa, Systematic Paris-Region en sont les fondateurs. Les IRT
s’inscrivent dans le cadre du Programme Investissements d’Avenir.

Au sein de SYSTEMX, vous serez intégré dans l’équipe de l’un des projets
de recherche : Intégration Multimédia Multilingue (IMM).

Le projet IMM réunit des acteurs du monde académique (CEA, CNRS-LIMSI,
INRIA, LNE, UPMC-LIP6), des industriels (Bertin Technologie, CapGemini,
Exalead, OVH, Systran, Temis, Vecsys, Vocapia) et des utilisateurs de
référence dans le domaine de l'analyse de contenus non structurés
(texte, vidéo).

L'objectif du projet IMM est de développer de nouvelles fonctions ou
capacités pour des composants nécessaires pour des applications de
veille sur les sources ouvertes (moteur de recherche, de transcription
de la parole, de traduction...), de concevoir des environnements
d'exécution et d’intégration de ces composants et de relever un certain
nombre de défis comme par exemple réduire le temps d'adaptation à un
contexte nouveau (sources, domaine, langue).

SUJET DE STAGE :

La translittération consiste à substituer à chaque graphème d’un système
d’écriture, un autre graphème ou un groupe de graphèmes d’un autre
système d’écriture, indépendamment de la prononciation.

La translittération connait un essor important en raison du caractère de
plus en plus multilingue du Web. De nombreuses approches ont été
proposées pour développer des systèmes de translittération mais la
majorité des systèmes actuels ne prennent pas en compte la complexité
des problèmes de la transcription et de la translittération, lesquels
touchent autant à l’oralité qu’à la scripturalité des systèmes
linguistiques impliqués.

L’objectif de ce stage est de concevoir et de développer un outil de
translittération automatique de noms propres de l’arabe vers le script
latin
et se déroulera selon les étapes suivantes :

- Etude, analyse et évaluation de l’existant. Cette étape permet
d’identifier l’approche à explorer.

- Implémentation d’un outil automatique de translittération de noms
propres de l’arabe vers le latin.

- Evaluation des résultats pour une généralisation à d’autres alphabets.

Vos missions :

- Faire un état de l’art dans le domaine : approches existantes et
outils disponibles.

- Choix de l’approche et conception de l’outil de translitération des
noms propres de l’arabe vers le script latin.

- Réaliser une évaluation des résultats.

Le profil recherché :

- Niveau : BAC+4 ou BAC +5, en Informatique ou Informatique Linguistique
(Ingénieur ou Master) pour un stage de 4 à 6 mois.

Vos Compétences sont :

Obligatoires :

- Informatique : maîtrise d’un langage de programmation (C++, Java, Perl, Python).
- Technologies d’apprentissage.

Optionnelles :

- Technologies d’apprentissage : clustering, HMM.
- Traitement automatique des langues.
- La connaissance de la langue arabe est un plus.

BIBLIOGRAPHIE :

- ALGHAMDI M. (2005). Alghorithms for Romanizing Arabic names. Journal
of King Saud University - Computer and Information Sciences,Volume 17,
Riyadh, 105-128.

- AL-ONAIZAN Y., KNIGHT K. (2002). Translating named entities using
monolingual and bilingual resources. Proceedings of the 40th ACL
Conference, USA.

- JIANG L., ZHOU M., CHIEN L. F., NIU C. (2007). Named entity
translation with web mining and transliteration. Proceedings of the
20th International Joint Conference on Artificial Intelligence, 1629-1634.

- TAO T., YOON S. Y., FISTER A., SPROAT R., ZHAI C. (2006). Unsupervised
named entity transliteration using temporal and phonetic
correlation. Proceedings of the Conference on Empirical Methods in
Natural Language Processing (EMNLP’06), 250-257.

- YASER A. O., KNIGHT K. (2002). Translating named entities using
monolingual and bilingual resources. Proceedings of the 40th Annual
Meeting of the Association of Computational Linguistics (ACL’02), 400-408.

CONDITIONS DE CANDIDATURE :

Contact et envoi des candidatures (CV détaillé et lettre de motivation):

Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar [ chez ] cea.fr

------