Бібліотека Київського столичного університету імені Бориса Грінченка

Головна

Спрощенний режим

Посібник користувача

Бази даних

Електронний каталог бібліотеки- результати пошуку

Вид пошуку

Електронний каталог бібліотеки

Каталог авторефератів та дисертацій

Грінченкознавство

Рідкісні та цінні видання

Українська Аудіокнига

Мережеві ресурси

Наукові періодичні видання Університету

Зона пошуку

Формат представлення знайдених документів:
повний	інформаційний	короткий

Пошуковий запит: (<.>K=лексемізація<.>)

Загальна кількість знайдених документів : 1

Porwoł, M.
Nlp ‘recipes’ for text corpora: approaches to computing the probability of a sequence of tokens [Текст] = Прийоми обробки природних мов для корпусів текстів: підходи до калькуляції вірогідності послідовності лем / M. Porwoł // Studia Philologica = Філологічні студії : збірник наукових праць. - 2020. - Вип. 15. - С. 6-13. - Бібліогр. в кінці ст. . - ISSN 2311-2425

Кл.слова (ненормовані):
лінгвістика -- oбробка природних мов -- мовне моделювання -- лексемізація -- частотність термінів -- N-грамний кластер -- N-грамна модель -- Скетч Енджін -- Python -- бібілотечний пакет природніх мов
Анотація: Дослідження штучних надбудов для обробки природних мов (ОПМ) вимагає подолання низки проблем у багатьох напрямах традиційних досліджень, пов’язаних із комп’ютерними науками, формальною лінгвістикою, логікою, цифровою гуманітаристикою, етичними традиціями тощо. Як напрям всередині комп’ютерних наук ОПМ вивчає взаємодію між мовами програмування та людськими (природними) мовами. Завдяки застосуванню машинних алгоритмів навчання до текстів (письмових і усних) утворюються такі системи, як машинний переклад (міжмовне накладання з однієї мови на іншу), реферування документів (накладання довгого тексту та скороченого відповідника), розпізнавання номінацій, інтелектуального уведення тексту і таке інше. Безсумнівно, технології ОПМ глибоко інкорпоровані у наше повсякдення. Наприклад, машинний переклад (МП) вбудовано в соціальні мережі та Інтернет, віртуальні помічники (Сірі, Кортана, Алекса тощо) розпізнають голос або диференціюють текст електронної пошти для відфільтровування спаму. Однак мета цієї розвідки — окреслити лінгвістичні й ОПМ методи та підходи до обробки текстів. У зв’язку з цим розглядаються поняття N-грамних кластерів як один із підходів до деталізації текстуальних даних у потоці певних послідовностей лем. Представлена в цій розвідці мовна N-грамна модель (що приписує вірогідність певним послідовностям лем у текстових корпусах), базується на даних, отриманих за допомогою Sketch Engine, а також прикладах мовних даних, опрацьованих у бібілотечних пакетах природних мов мови програмування Python. Питання обчислення вірогідностей послідовностей лексем вирішує очевидні труднощі: виконання команд у різних системах потребує природних формулювань тексту. Відповідно, необхідно мати вузол, який обчислює вірогідність тексту на виході. Опрацювавши інформацію про частоту вживань мовних N-грам у текстах великого корпусу, можна передбачати наступне слово. Калькуляція окремих слововживань може мати свої недоліки, наприклад виникають проблеми з обмеженнями збереження. Проте викладені в статті мовні моделі та окремі прийоми обчислень мають широкий спектр застосування, наприклад у машинному перекладі, реферуванні, лінійних діалогових системах тощо. Важливо зазначити, що ця розвідка є частиною тривалого проєкту LADDER — мовний аналіз даних в епоху цифрових досліджень, який стосується параметрування даних2 і допомагає створити інтелектуальну систему міждисциплінарної інформації.
Дод.точки доступу:
Порвол М.

Є примірники у відділах: всього 5 : ГП ЧЗ (2), Ф1 (1), Ф2 (1), Ф3 (1)
Вільні: ГП ЧЗ (2), Ф1 (1), Ф2 (1), Ф3 (1)

Знайти схожі

© Міжнародна Асоціація користувачів і розробників електронних бібліотек і нових інформаційних технологій
(Асоціація ЕБНІТ)