Извличане на информация

Извличане на информация (на английски: Information retrieval) е област от информатиката и компютърната лингвистика, чийто предмет е извличането на документи, на информация от документи и на метаданни за документите, чрез търсене в релационни бази данни и Интернет. Областта е интердисциплинарна, на границата между информатиката, математиката, библиотечното дело, когнитивната психология, лингвистиката, статистиката и физиката.

Съществува известно припокриване между понятията извличане на информация, извличане на данни, извличане на текст, извличане на знания от данни (сондиране на данни, data mining), но за всяко от тях може да се посочи самостоятелен корпус от научна литература, теоретико-приложни резултати и технологии.

Автоматизираните системи за извличане на информация се използват, за да се намалят ефектите от феномена „информационно пренасищане“. Най-популярните приложения за извличане на информация са уеб-базираните търсачки. Много университети и публични библиотеки използват такива системи, за да осигурят достъп до книги, списания и други документи.

Обща постановка

Процесът на извличане на информация започва с въвеждането от потребителя на заявка към системата. Заявките са формални описания на информационната потребност, например низ въведен в полето на търсачката. При извличането на информация с една заявка не се идентифицира по уникален начин един-единствен обект от съвкупността. Напротив, обикновено на заявката отговарят повече от един обекта, вероятно с различни степени на релевантност. Под „обект“ се разбира запис, който съхранява определен обем от информация в базата данни, като в зависимост от приложението, обектът може да е текстов, графичен, аудио- или видео-документ.

Повечето системи за извличане на информация изчисляват числов коефициент на релевантност на всеки от документите в базата по отношение на изпратената от потребителя заявка, и ранжират (подреждат в намаляващ ред) така оценените документи според техния коефициент. Най-високо ранжираните обекти са тези, които се връщат като резултат на потребителя. Процесът може да претърпи и повече от една итерация, ако потребителят не е удовлетворен от резултата и желае да прецизира заявката си.

Оценки на резултата

Съществуват различни техники за измерване и оценка на резултата от работата на системите за извличане на информация. Всяка от тях изисква съвкупност от документи и потребителска заявка.

Важни показатели за оценка и управление на качеството са:

Точност на оценяване (Precision) е отношението на броя извлечени документи, които са релевантни на информационната потребност на потребителя, към общия брой извлечени документи, т.е.

Точността на оценяване взема предвид всички върнати документи, но може да се постави и ограничение по ранг, като се пресмята на база най-високо ранжираните n резултати.

Точност на връщане (Recall) е отношението на броя документи, релевантни на заявка, които успешно са извлечени от системата, т.е.

При бинарна класификация, recall отговаря на чувствителността. Може да се разглежда като вероятността един релевантен документ да бъде извлечен при заявката.

Тривиално е тази оценка да се доведе до 100%, като в отговор на заявка се върнат всички документи от съвкупността. Следователно, този показател сам по себе си е недостатъчен, а трябва да се определи и броят нерелевантни документи, например като се изчисли показателят точност на оценяване.

Брак (Fall-out) е съотношението на нерелевантните извлечени документи към всички налични нерелевантни документи, т.е.

При бинарна класификация, бракът е тясно свързан със специфичността, като я допълва до 1. Може да се разглежда като вероятността заявката да върне нерелевантен документ.

Тривиално е да се доведе този показател до 0%, като на отправената заявка в резултат не се върне нито един документ.

Претеглената средна хармонична на точността на оценяване и точността на връщане, наречена F-мярка или още

Беше ли полезна тази статия?

Оцени я!

Среден рейтинг / 5. Брой гласове:

Ако намираш статията за полезна...

Последвай ни в социалните мрежи!

Съжаляваме, че тази статия не ти беше полезна!

Помогни ни да променим това!