Описание родственных связей с помощью генеалогического древа – весьма удобная метафора. Почти одновременно она была введена в биологию Чарлзом Дарвином, а в лингвистику – Августом Шлейхером. На значительные параллели между эволюцией живых организмов и языков неоднократно указывали представители обеих наук. Но древесное описание предполагает только вертикальное наследование, от предка к потомку, – например, французское chaud «горячий» является пра-пра..внуком латинского caldrus. В то же время возможно и горизонтальное наследование – обмен между двумя языками (или видами): например, современное английское mountain «гора» — результат развития слова montaigne, заимствованного из старофранцузского. Показано, что горизонтальный перенос генов существует и в биологии (о его распространенности до сих пор ведутся споры) – например, некоторые гены, используемые млекопитающими в плаценте, исходно был вирусами. Представляется, однако, что в языках заимствования должны случаться проще, усиливая сходство неродственных, но когда-либо контактировавших языков.
Трое исследователей из Германии и Новой Зеландии задались вопросом – насколько же часто случаются заимствования в языках и может ли математический анализ выявлять их? В качестве сырого материала использовались данные по «базовому словарю» индоевропейских языков (широко применяемый в лингвистике набор слов, редко подвергающийся заимствованиям и служащий основой для историко-лингвистических реконструкций). Авторы составили компьютерные модели развития языков, призванные «объяснить» нынешнее распространение когнатов – слов, происходящих от одного предкового. В моделях допускались утраты когнатов, их возникновение (придумывание или заимствование из языков, не входящих в исходный материал) и заимствования. Модели различались разным допустимым максимальным числом заимствований на одно слово. Для выбора моделей также использовался принцип униформизма: «базовый словарь» древних языков не должен значимо отличаться по размеру от такового современных. Наиболее подходящая модель (с одним допустимым заимствованием в истории одного понятия) выявила 94% известных заимствований, тем самым показав эффективность метода. Всего же эта модель показала, что 61% использованных когнат были вовлечены в заимствования. Также, судя по результатам работы, в среднем 8% базового словаря любого индоевропейского языка составляют заимствованные слова. Получается, что английский, часто считающийся примером языка с высокой долей заимствованных слов в «базовом словаре» (в основном из старофранцузского и старонорвежского), оказывается самым «средним» — дело не в его исключительности, он просто хорошо изучен. Результаты работы показывают, что заимствования в базовой лексике более распространены, чем предполагалось ранее. Но большинство заимствований происходят между родственными языками, что авторы связывают с культурными барьерами. Эта работа – первая попытка применить математические методы для поиска заимствований, и ее результаты, конечно, предварительны и требуют дальнейших исследований
Работа опубликована в журнале
Proceedings of the Royal Society, Section B (Biological Science)
Материал к публикации подготовил Сергей Лысенков