Извличане на знания от текст

Извличане на знания от текст (на английски: text mining, text data mining) или текстова аналитика (text analytics) е процес на откриване на висококачествена информация от входен текст чрез откриване на повтарящи се закономерности и тенденции със средствата на статистическото обучение с шаблони. Това обичайно включва структуриране на входния текст (парсиране, както и добавяне и премахване на определени лингвистични особености, както и въвеждане в база данни), оценяване и интерпретиране на изхода. Високото качество в този контекст обичайно се отнася до комбинация от релевантност, оригиналност и потенциален интерес за потребителя. Типични задачи в извличането на знания от текст включват категоризация, клъстеризация на текста, извличане на понятия, генериране на таксономии, анализ на тоналността на текста, резюмиране на съдържанието, моделиране на взаимовръзките между понятията.

Анализът на текста включва извличане на информация, лексикален анализ за изследване на честотните разпределения на отделните думи, разпознаване на закономерности, техники от извличането на знания от данни включително анализ на асоциациите, визуализация, предсказващ анализ. Основната цел е текстът да се превърне в данни, годни за анализ чрез приложението на аналитични методи и методи от обработката на естествен език. Типично приложение на извличането на знания от текст е сканирането на множество документи, написани на естествен език и моделирането на това множество с цел предсказваща класификация или с цел запълването на база данни или индекс за търсене с извлечената в процеса информация.

Беше ли полезна тази статия?

Оцени я!

Среден рейтинг / 5. Брой гласове:

Ако намираш статията за полезна...

Последвай ни в социалните мрежи!

Съжаляваме, че тази статия не ти беше полезна!

Помогни ни да променим това!