The CLLD project is funded by the Max Planck Society for a period of 4 years from January 1, 2013 to December 31, 2016.
Martin Haspelmath serves as scientific coordinator, Robert Forkel as programmer and technical coordinator.
Das Forschungsgebiet, das hier mit Diversity Linguistics bezeichnet wird, umfasst Deskriptive Linguistik, Typologie und Historische Linguistik und ist generell durch die Beschäftigung mit (möglichst) vielen der etwa 7500 Sprachen der Welt gekennzeichnet.
Diese Charakteristik hat unmittelbare Auswirkung auf die Art der Forschungsdaten, die eine Rolle spielen: Sobald die Betrachtung von mehreren hundert Sprachen im Vordergrung steht, reduziert sich das verfügbare Material meist auf Wortlisten, Phoneminventare, typologische Surveys oder kleine Sammlungen von Beispielsätzen. Als Beispiele für große Datensammlungen in diesem Feld können WALS (The World Atlas of Language Structures) oder ABVD (Austronesian Basic Vocabulary Database) gelten.
Die Herausforderungen an Forschungsdateninfrastrukturen liegen hier also weniger darin, mit grossem Datenvolumen zurechtzukommen (ABVD umfasst momentan 237.921 lexikalische Einträge, WALS enthält 76.465 Datenpunkte), als vielmehr darin, möglichst viele der Daten die bereits gesammelt wurden, möglichst sinnvoll zugänglich zu machen, sowie best practices für Datenpflege und -sammlung zu entwickeln.
Dieser Aufgabe stellt sich das CLLD Projekt. Durch das Bereitstellen einer Publikationsplattform sollen Datenpublikationen einerseits technisch vereinfacht werden, andererseits ein größeres Prestige bekommen, so dass weder Angst vor technischen Schwierigkeiten noch die Befürchtung, um die Früchte der eigenen Arbeit gebracht zu werden, als Argument gegen eine Veröffentlichung der Daten angeführt werden können.
Um die Chancen einer digitalen Publikation im Web voll zu nutzen, soll es natürlich möglich sein, Datenbanken weiter zu pflegen, zu ergänzen und zu verbessern. Mit diesem Anspruch einher geht das Problem kollaborativer Datenpflege und der nachhaltigen Verfügbarkeit mehrerer Bearbeitungsstände von Datensätzen. Zwei interessante Lösungen für diese Probleme, die die Besonderheit der Daten im betrachteten Forschungsfeld berücksichtigen, werden hier und hier näher vorgestellt.