Татарский национальный корпус «Туган тел»

Татарский корпус «Туган тел» является лингвистическим ресурсом современного литературного татарского языка. Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014-2020 годы». Разрабатываемый корпус адресован широкому кругу пользователей: лингвистам, специалистам в области татарского, тюркского и общего языкознания, типологам, преподавателям татарского языка, деятелям культуры, а также всем, кто изучает и интересуется татарским языком.

Объем корпуса на конец 2018 года составляет свыше 180 миллионов словоупотреблений и содержит тексты различных жанров (художественная литература, тексты СМИ, тексты официальных документов, учебная литература, научные публикации и др.). Каждый документ имеет метаописание (авторы, их пол, выходные данные, даты создания, жанры, части, главы и др.). Тексты, включенные в корпус, снабжены морфологической разметкой (информация о части речи и грамматических характеристиках словоформы). Морфологическая разметка текстов корпуса выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии PC-KIMMO.

Для корпуса разработана поисковая система, позволяющая искать материал по лексеме, словоформе, а также по отдельным грамматическим характеристикам.

Участниками проекта являются сотрудники НИИ «Прикладная семиотика» АН РТ и Казанского федерального университета (Д.Ш. Сулейманов, О.А. Невзорова, Р.А. Гильмуллин, А.Р. Гатиатуллин, А.М. Галиева, М.М. Аюпов, Б.Э. Хакимов, Д.Д. Якубова, Р.Р. Гатауллин, Д.Р. Мухамедшин, Р.Р. Билалов), а также студенты и магистранты КФУ.

Разработчики Корпуса приносят благодарность издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии текстов, особая признательность — редакциям журнала «Ялкын», журнала «Идел», газеты «Ватаным Татарстан», газеты «Шахри Казан», издательству «Вакыт-Магариф», Национальной библиотеке Республики Татарстан, а также ГУП РТ «Татарское книжное издательство».

Новости

Выполнено обновление коллекции основного корпуса. Текущий объем основного корпуса — 194 млн. словоформ. 15.12.2019

К концу 2018 года подготовлена коллекция документов на татарском языке по общественно-политической и IT-тематике общим объемом 27 млн. словоформ. В качестве источников документов были использованы материалы электронных СМИ, нормативно-правовых актов на татарском языке, учебных и научных изданий. 06.12.2018

К концу 2018 года подготовлена параллельная коллекция документов на русском и татарском языках по общественно-политической и IT-тематике общим объемом 7 млн. словоформ. 03.12.2018

Выполнено обновление коллекции основного корпуса. Текущий объем основного корпуса - 182 млн. словоформ. 30.11.2018

Открыт доступ к общественно-политическому подкорпусу. 13.12.2017

Открыт доступ к IT-подкорпусу. 11.12.2017

Открыт доступ к русско-татарскому параллельному подкорпусу. 08.12.2017

Размещена инструкция по работе с основным корпусом. 06.12.2017

Выполнено обновление коллекции основного корпуса. Текущий объем основного корпуса - 154 млн. словоформ. 01.12.2017