Шифр: 80я43/S 90-306709024/2020/15
   Журнал

Studia Philologica [Електронний ресурс] : науковий журнал/ Київський столичний університет імені Бориса Грінченка. - Київ : Київський столичний університет імені Бориса Грінченка, 2012 - . - Назва з титул. екрана. - ISSN 2311-2425. - Виходить двічі на рік
2020р. Вип. 15
Зміст:
Porwoł, M. Nlp ‘recipes’ for text corpora: approaches to computing the probability of a sequence of tokens / M. Porwoł. - С.6-13. - Бібліогр. в кінці ст.
Sivaieva, O. Corpus analysis of collocations with health in the media texts / O. Sivaieva. - С.14-19. - Бібліогр. в кінці ст.
Zabotnova, M. Internet memes semiotics in english political discourse / M. Zabotnova. - С.20-29. - Бібліогр. в кінці ст.
Tsapro, G. Gender roles of main characters in Danielle Steel’s "Friends forever" / G. Tsapro, О. Чорна. - С.30-36. - Бібліогр. в кінці ст.
Kulish, A. Speech personality: psycholinguistic aspect (the case of speech behaviour of Sherlock Holmes) / A. Kulish. - С.37-42. - Бібліогр. в кінці ст.
Скляр, О. Категорія інвективності: від витоків до викликів сучасності / О. Скляр. - С.43-53. - Бібліогр. в кінці ст.
Морозова, Г. Лінгвостилістичний та лінгвопоетичний аналіз поезії Е.Е. Каммінгса i carry your heart with me (I carry your heart with me) / Г. Морозова. - С.54-59. - Бібліогр. в кінці ст.
Долгушева, О. Мовно-стилістичні домінанти художньої презентації жахливого у змалюванні атмосфери Е. По та М. Гоголем / О. Долгушева. - С.60-69. - Бібліогр. в кінці ст.
Гайдаш, А. Антиутопія Констанц Денніг "Exstasy Rave": репрезентації старості / А. Гайдаш, С. Кадубовська. - С.70-76. - Бібліогр. в кінці ст.
Рикова, Г. Проблемне поле самоідентифікації в американській романістиці 2000-х рр. / Г. Рикова. - С.77-83. - Бібліогр. в кінці ст.
Перейти до зовнішнього ресурсу До змісту
Є примірники у відділах: всього 5 : ГП ЧЗ (2), Ф1 (1), Ф2 (1), Ф3 (1)
Вільні: ГП ЧЗ (2), Ф1 (1), Ф2 (1), Ф3 (1)




    Porwoł, M.
    Nlp ‘recipes’ for text corpora: approaches to computing the probability of a sequence of tokens [Текст] = Прийоми обробки природних мов для корпусів текстів: підходи до калькуляції вірогідності послідовності лем / M. Porwoł // Studia Philologica = Філологічні студії : збірник наукових праць. - 2020. - Вип. 15. - С. 6-13. - Бібліогр. в кінці ст. . - ISSN 2311-2425

Кл.слова (ненормовані):
лінгвістика -- oбробка природних мов -- мовне моделювання -- лексемізація -- частотність термінів -- N-грамний кластер -- N-грамна модель -- Скетч Енджін -- Python -- бібілотечний пакет природніх мов
Анотація: Дослідження штучних надбудов для обробки природних мов (ОПМ) вимагає подолання низки проблем у багатьох напрямах традиційних досліджень, пов’язаних із комп’ютерними науками, формальною лінгвістикою, логікою, цифровою гуманітаристикою, етичними традиціями тощо. Як напрям всередині комп’ютерних наук ОПМ вивчає взаємодію між мовами програмування та людськими (природними) мовами. Завдяки застосуванню машинних алгоритмів навчання до текстів (письмових і усних) утворюються такі системи, як машинний переклад (міжмовне накладання з однієї мови на іншу), реферування документів (накладання довгого тексту та скороченого відповідника), розпізнавання номінацій, інтелектуального уведення тексту і таке інше. Безсумнівно, технології ОПМ глибоко інкорпоровані у наше повсякдення. Наприклад, машинний переклад (МП) вбудовано в соціальні мережі та Інтернет, віртуальні помічники (Сірі, Кортана, Алекса тощо) розпізнають голос або диференціюють текст електронної пошти для відфільтровування спаму. Однак мета цієї розвідки — окреслити лінгвістичні й ОПМ методи та підходи до обробки текстів. У зв’язку з цим розглядаються поняття N-грамних кластерів як один із підходів до деталізації текстуальних даних у потоці певних послідовностей лем. Представлена в цій розвідці мовна N-грамна модель (що приписує вірогідність певним послідовностям лем у текстових корпусах), базується на даних, отриманих за допомогою Sketch Engine, а також прикладах мовних даних, опрацьованих у бібілотечних пакетах природних мов мови програмування Python. Питання обчислення вірогідностей послідовностей лексем вирішує очевидні труднощі: виконання команд у різних системах потребує природних формулювань тексту. Відповідно, необхідно мати вузол, який обчислює вірогідність тексту на виході. Опрацювавши інформацію про частоту вживань мовних N-грам у текстах великого корпусу, можна передбачати наступне слово. Калькуляція окремих слововживань може мати свої недоліки, наприклад виникають проблеми з обмеженнями збереження. Проте викладені в статті мовні моделі та окремі прийоми обчислень мають широкий спектр застосування, наприклад у машинному перекладі, реферуванні, лінійних діалогових системах тощо. Важливо зазначити, що ця розвідка є частиною тривалого проєкту LADDER — мовний аналіз даних в епоху цифрових досліджень, який стосується параметрування даних2 і допомагає створити інтелектуальну систему міждисциплінарної інформації.
Дод.точки доступу:
Порвол М.


Є примірники у відділах: всього 5 : ГП ЧЗ (2), Ф1 (1), Ф2 (1), Ф3 (1)
Вільні: ГП ЧЗ (2), Ф1 (1), Ф2 (1), Ф3 (1)