Существенной особенностью лингвистических корпусов является система разметки, от характера и степени разработанности которой во многом зависят возможности, предоставляемые для пользователя.
Система морфологической разметки общественно-политического подкорпуса татарского языка основана на системе грамматической аннотации Татарского национального корпуса "Туган тел" и нацелена на представление всех реально существующих грамматических форм слов, не всегда отражаемых в описательных исследованиях по татарской грамматике, либо имеющих различные альтернативные трактовки [Галиева, Хакимов, Гатиатуллин 2013].
Для формального представления татарской агглютинативной морфологии используется модель, в которой словоформа строится на основе последовательного присоединения к основе регулярных словообразовательных и словоизменительных аффиксов. Например, имя существительное имеет следующую регулярную структуру: <основа> <множественность> <притяжательность> <падежность> <модальность> (китап-лар-ы-нда-мы, бала-лар-ыгыз-га-дыр).
Каждое грамматическое значение выражается отдельным аффиксом; аффиксы в пределах контекста, как правило, являются однозначными и регулярными. Таким образом, для разметки словоформы необходимо проанализировать структуру ее аффиксальной цепочки с привлечением словаря основ.
Грамматическая аннотация о татарской словоформе включает информацию:
Например:
Если словоформа допускает альтернативные варианты морфологического анализа, они также даются, например:
- чаткысыдыр (чаткы-сы-дыр), где аффикс -дыр может выражать грамматическое значение как сказуемости 3 лица единственного числа, так как пробабилитива:
- барган (бар-ган), где аффикс -ган может выражать как значение причастия прошедшего времени, так и некатегорического прошедшего времени (перфекта):
Как уже отмечалось выше, морфологическая разметка текстов корпуса выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии HFST (Helsinki Finite-State Transducer Technology).
Следует отметить, что различные нарушения регулярности морфологии татарского языка, многие из которых вызваны большим количеством неосвоенных заимствований и несовершенством современной татарской орфографии, приводят к затруднениям при автоматической обработке, так как многие морфотактические правила на этом материале не работают.
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории |
---|---|---|
N | noun | имя существительное |
ADJ | adjective | имя прилагательное |
V | verb | глагол |
ADV | adverb | наречие |
NUM | numeral | числительное |
PN | pronoun | местоимение |
CNJ | conjunction | союз |
POST | postposition | послелог |
PART | particle | частица |
INTRJ | interjection | междометие |
MOD | modal word | модальное слово |
IMIT | imitative word | звукоподражательное слово |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
SG | singular | единственное | - | |
PL | plural | множественное | -лар / -ләр / -нар / -нәр | -ЛАр |
Сокращения Tags |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|
POSS_1SG | принадлежность 1 лицу ед. числа | -ым / -ем / -м | -[Ы]м |
POSS_2SG | принадлежность 2 лицу ед. числа | -ың / -ең / -ң | -[Ы]ң |
POSS_3SG | принадлежность 3 лицу ед. числа | -ы / -е / -сы / -се | -[с]Ы |
POSS_1PL | принадлежность 1 лицу мн. числа | -ыбыз / -ебез / -быз / -без | -[Ы]бЫз |
POSS_2PL | принадлежность 2 лицу мн. числа | -ыгыз / -егез / -гыз / -гез | -[Ы]гЫз |
POSS_3PL | принадлежность 3 лицу мн. числа | -ы / -е / -сы / -се | -[с]Ы |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
NOM | nominative | именительный падеж | - | |
GEN | genitive | родительный падеж (генитив) | -ның / -нең | -нЫң |
DIR | directive | направительный падеж (директив) | -га / -гә / -ка / -кә / -на / -нә / -а / -ә | -[Г]А |
DIR_LIM | ‘limited directive’ (‘till’) | направительный падеж с ограничительным значением | -гача / -гәчә / -кача / -кәчә | -[Г]АчА |
ACC | accusative | винительный падеж (аккузатив) | -ны / -не / -н | -н[Ы] |
ABL | ablative | исходный падеж (аблатив) | -дан / -дән / -тан / -тән / -нан / -нән / -ннан / -ннән | -[н]ДАн |
LOC | locative | местно-временной падеж (локатив) | -да / -дә / -та / -тә / -нда / -ндә | -[н]ДА |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
ATTR_MUN | attributive munitative (‘with’) | атрибутив на -лы (мунитатив) | -лы / -ле | -лЫ |
ATTR_ABES | attributive abessive (‘without’) | атрибутив на -сыз (абессив) | -сыз / -сез | -лЫ |
ATTR_LOC | attributive locative (Turkish: ‘daki’) | локативный атрибутив | -дагы / -дәге / -тагы / -тәге / -ндагы / -ндәге | -[н]ДА+гЫ |
ATTR_GEN | attributive genitive | генитивный атрибутив | -ныкы / -неке | -нЫ(ң)+кЫ |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
COMP | comparative | сравнительная степень (компаратив) | -рак / -рәк | -рАК |
Сокращения Tags |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|
1SG | 1-е лицо ед.числа | -мын / -мен / -м | -м[Ын] |
2SG | 2-е лицо ед.числа | -сың / -сең / -ң | -[сЫ]ң |
3SG | 3-е лицо ед.числа | - | |
1PL | 1-е лицо мн.числа | -быз / -без / -к | -Б[Ыз] |
2PL | 2-е лицо мн.числа | -сыз / -сез / -гыз / -гез | -СЫз |
3PL | 3-е лицо мн.числа | -лар / -ләр / -нар / -нәр | -ЛАр |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
PRES | present | настоящее время | -a / -ә / -й / -и | -Й |
PST_DEF | past definite | прошедшее категорическое | -ды / -де / -ты / -те | -ДЫ |
PST_INDF | past indefinite | прошедшее результативное (перфект) | -ган / -гән / -кан / -кән | -ГАн |
FUT_DEF | future definite | будущее категорическое | -ачак / -әчәк / -ячак / -ячәк | -АчАК |
FUT_INDF | future indefinite | будущее неопределенное | -ыр / -ер / -р | -[Ы]Р |
FUT_INDF_NEG | future indefinite negative | отрицательная форма неопределенного будущего времени | -мас / -мәс | -мАС |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
NEG | negative | отрицание | -ма / -мә | -мА |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
PCP_PR | present participle | причастие настоящего времени | -учы / -үче | -У+чЫ |
PCP_PS | past participle | причастие настоящего времени | -ган / -гән / -кан / -кән | -ГАн |
PCP_FUT_DEF | future participle | причастие настоящего времени | -ыр / -ер / -р | -[Ы]Р |
PCP_FUT_INDF | future participle | причастие настоящего времени | -ачак / -әчәк / -ячак / -ячәк | -АчАК |
USIT | usitative (‘regularly doing something’) | причастие настоящего времени | -учан / -үчән | -У+чАн |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
ADVV_ACC | Adverbial verb (basic form) | деепричастие сопутствующего действия (аккомпаниатор) | -ып / -еп / -п | -Ып |
ADVV_NEG | Adverbial verb (negative form) | отрицательная форма деепричастия сопутствующего действия | -мыйча / -мичә | -мА+Й+чА |
ADVV_ANT | Adverbial verb (antecedent meaning) | деепричастие на -гач | -гач / -гәч / -кач / -кәч | -ГАч |
ADVV_SUCC | Adverbial verb (successive meaning) | деепричастие на -ганчы | -ганчы / -гәнче / -канчы / -кәнче | -ГАн+чЫ |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
INF_1 | infinitive | инфинитив на -ырга | -ырга / -ергә / -рга / -ргә / -ска / -скә | -[Ы]РГА |
INF_2 | infinitive (archaic form) | инфинитив на -мак | -мак / -мәк | -мАк |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
VN_1 | Verbal noun | имя действия на -у | -у / -ү | -У |
VN_2 | Verbal noun (colloquial form) | имя действия на -ш (-ыш, -еш) | -ыш / -еш / -ш | -[Ы]ш |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
ACT | active | действительный (основной) залог | - | |
PASS | passive | страдательный залог (пассив) | -ыл / -ел / -л | -[Ы]л |
REFL | reflexive | возвратный залог (рефлексив) | -ын / -ен / -н | -[Ы]н |
CAUS | causative | понудительный залог (каузатив) | -дыр / -дер / -тыр / -тер / -т | -Д[Ыр] |
RECP | reciprocal | взаимно-совместный залог (реципрок) | -ыш / -еш / -ш | -[Ы]ш |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
HOR_SG | Hortative (1st person singular – ‘let me’) | императив 1 лица (гортатив) ед.числа | -ыйм / -им | -ЫЙм |
HOR_PL | Hortative (1st person plural – ‘let’s’) | императив 1 лица (гортатив) мн.числа общий вопрос | -ыйк / -ик | -ЫЙк |
IMP_SG | Imperative (2nd person singular) | императив 2 лица ед.числа | - | |
IMP_PL | Imperative (2nd person plural) | императив 2 лица мн.числа | -ыгыз / -егез / -гыз / -гез | -[Ы]гЫз |
JUS_SG | Jussive (3rd person singular – ‘let him/her/it’) | императив 3 лица (юссив) ед.числа | -сын / -сен | -сЫн |
JUS_PL | Jussive (3rd person plural – ‘let them’) | императив 3 лица (юссив) мн.числа | -сыннар / -сеннәр | -сЫн+ЛАр |
PREC_1 | Precative (‘please’) | просительный («мягкий») императив (прекатив) на -чы | -чы / -че | -чЫ |
PREC_2 | Precative (‘please’) | просительный («мягкий») императив (прекатив) на -сана | -сана / -сәнә | -сАнА |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
RAR_1 | Raritive (rarely happen) | раритив на -гала | -гала / -гәлә / -кала / -кәлә | -ГАлА |
RAR_2 | Raritive (rarely happen) | раритив на -ыштыр | -ыштыр / -ештер / -штыр / -штер | -[Ы]ш+тЫр |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
COND | conditional | условная модальность (кондиционалис) | -са / -сә | -сА |
OBL | obligative (‘have to’) | форма, выражающая значение необходимости | -асы / -әсе / -ыйсы / -исе | -Й+сЫ |
PSBL | possibilitive (available to do smth) | форма, выражающая значение возможности | -лык / -лек | -лЫк |
DESID | desiderative (intention) | форма, выражающая значение намерения (дезидератив) | -макчы / -мәкче | -мАк+чЫ |
PREM | premonitive (warning) | форма, выражающая значение предостережения | -магай / -мәгәй | -мА+гАЙ |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
NUM_COLL | collective numeral | собирательное числительное | -ау / -әү | -АУ |
NUM_ORD | ordinal numeral | порядковое числительное | -ынчы / енче / -нчы / -нче | -нчЫ |
NUM_DISR | distributive numeral | разделительное числительное | -ар / -әр / -шар / -шәр | -ШАр |
NUM_APPR | approximate numeral | числительное приблизительного счета | -лап / -ләп | -лАп |
Сокращения Tags |
Расшифровка сокращений Full term |
Название категории | Алломорфы Allomorphs |
Морфемы Morphemes |
---|---|---|---|---|
INT | interrogative | общий вопрос | -мы / -ме | -мЫ |
INT_MIR | interrogative mirative (wonder) | вопросительная форма на -мыни | -мыни / -мени | -мЫни |
PROB | probabilitive (‘may be’) | форма, выражающая значение вероятности, предположительности | -дыр / -дер / -тыр / -тер | -ДЫр |
SIM_1 | Similative (‘like smth/similar to’) | форма, выражающая значение уподобления | -дай / -дәй / -тай / -тәй | -ДАЙ |
SIM_2 | Similative (‘like smth/similar to’) | форма, выражающая значение уподобления | -сыман | -сыман |
SIM_3 | Similative (‘like smth/similar to’) | форма, выражающая значение уподобления | -сымак | -сымак |