Linking unstructured content to domain?specific knowledge repositories using contextualized distributional semantics

01.02.2014 -

Abgeschlossen
TU Darmstadt & Siemens AG

Name des Teilnehmers: Dr. rer. nat. Martin Riedl

Beschreibung des IT-Forschungsprojekts: Im Rahmen des Projektes LICORES wurden Technologien entwickelt, die sprach- und domänenunabhängig aus unstrukturiertem Text lernen, Entitäten (z.B. Wörter, Firmennamen oder Personennamen) im Text mit Informationen anzureichern und mit Wissensdatenbanken zu verbinden.

Zuerst wurden dazu mit vorhandenen Funktionalitäten aus dem JoBimText-Framework Wortähnlichkeiten berechnet. Anschließend wurde eine Methode angewandt, welche die verschiedenen Bedeutungen von Wörtern erkennen kann (z.B. kann das Wort Maus die Bedeutung eines Tieres haben oder die Bedeutung des Computereingabegerätes). Weil Mehrwortbegriffe (z.B. Hot Dog, New York oder Personennamen) in vielen Sprachen häufig auftreten, wurde im Rahmen des Projektes eine Methode entwickelt, welches diese erkennt. Für jede Wortbedeutung wurden anschließend prototypische Konzepte in Form von Oberbegriffen gelernt. Dies stellt eine prototypische Konzeptebene dar, welche weitere Informationen zu Wörtern liefert. Diese Konzeptebene wurde dazu eingesetzt, um Wörter mit Wissensrepräsentationen (z.B. Taxonomien) zu verknüpfen. Die dabei entwickelten Methoden sind so ausgelegt, dass sie auf große Daten anwendbar sind. Zum Erreichen dieses Ziels wurde das vorhandene JoBimText Framework eingesetzt und erweitert.

Software Campus-Partner: TU DarmstadtSiemens AG

Umsetzungszeitraum: 01.02.2014 - 31.01.2016

Publikationen:

Martin Riedl, Irina Alles and Chris Biemann (2014):„Combining Supervised and Unsupervised Parsing for Distributional Similarity“, in: Proceedings of the 25th International Conference on Computational Linguistics, COLING 2014, pp. 1435-1446, Dublin, Ireland.

Tim Feuerbach, Martin Riedl, Chris Biemann (2015): „Distributional Semantics for Resolving Bridging Mentions“, in: Proceedings of the Conference on Recent Advances in Natural Language Processing, RANLP 2015, pp. 192–199, Hissar, Bulgaria.

Lucie Flekova, Eugen Ruppert, Daniel Preoţiuc-Pietro (2015):„Analysing domain suitability of a sentiment lexicon by identifying distributionally bipolar words“, in: Proceedings of the 6th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis held in conjunction with EMNLP, pp. 77-84, Lisboa, Portugal.

Martin Riedl, Chris Biemann (2015):„A Single Word is not Enough: Ranking Multiword Expressions Using Distributional Semantics“, in: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, pp. 2430–2440, Lisboa, Portugal.

Eugen Ruppert, Manuel Kaufmann, Martin Riedl, Chris Biemann (2015a):„JoBimViz: A Web-based Visualization for Graph-based Distributional Semantic Models“, in: Proceedings of the Annual Meeting of the Association for Computational Linguistics, ACL 2015, System Demonstrations, pp. 103–108, Beijing, China.

Eugen Ruppert, Jonas Klesy, Martin Riedl, Chris Biemann (2015b):„Rule-based Dependency Parse Collapsing and Propagation for German and English“, in: Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology, GSCL 2015, pp. 58–66, Duisburg, Germany.