Подкорпус IT лексики татарского языка

Подкорпус IT лексики татарского языка является тематическим лингвистическим ресурсом современного татарского языка. Проект выполняется в НИИ «Прикладная семиотика» Академии наук Республики Татарстан в рамках гранта Российского научного фонда «Разработка моделей связывания терминологии в разных языках (на материале русского и татарского языков)», проект № 16-18-02074.

Объем подкорпуса на конец 2018 года составляет свыше 5 миллионов словоупотреблений. В качестве основных источников использованы новостные сайты (www.azatliq.org, http://intertat.ru и т.д.), локализационные файлы для Windows, учебная литература по информатике и информационным технологиям для средней и высшей школы и др.

Тексты, включенные в подкорпус, снабжены морфологической разметкой (представлена информация о части речи и грамматических характеристиках словоформы). Морфологическая разметка текстов выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии PC-KIMMO.

Поисковая система подкорпуса позволяет искать материал по лексеме, словоформе, а также по отдельным грамматическим характеристикам.