Какво представлява обработката на естествен език и как работи?

Обработката на естествен език позволява на компютрите да обработват това, което казваме, в команди, които могат да изпълняват. Разберете как работи основното и как се използва за подобряване на живота ни.

Какво представлява обработката на естествен език?

Независимо дали става дума за Alexa, Siri, Google Assistant, Bixby или Cortana, всеки със смартфон или интелигентен високоговорител има гласово активиран асистент в днешно време. Всяка година тези гласови асистенти изглежда стават все по-добри в разпознаването и изпълнението на нещата, които им казваме да правят. Но чудили ли сте се някога как тези асистенти обработват нещата, които казваме? Те успяват да направят това благодарение на обработката на естествен език или НЛП.

В исторически план повечето софтуери са били в състояние да реагират само на фиксиран набор от специфични команди. Ще се отвори файл, защото сте щракнали върху Отвори, или електронна таблица ще изчисли формула въз основа на определени символи и имена на формули. Една програма комуникира, използвайки езика за програмиране, на който е била кодирана, и по този начин ще произведе изход, когато й бъде даден вход, който тя разпознава. В този контекст думите са като набор от различни механични лостове, които винаги осигуряват желания резултат.

Това е в контраст с човешките езици, които са сложни, неструктурирани и имат множество значения, базирани на структура на изречението, тон, акцент, време, пунктуация и контекст. Обработката на естествен език е клон на изкуствения интелект, който се опитва да преодолее тази празнина между това, което машината разпознава като вход, и човешкия език. Това е така, че когато говорим или пишем естествено, машината произвежда изход в съответствие с казаното от нас.

  Приложение за водене на бележки, базирано на жестове, с текст, снимка, гласова бележка и напомняне

Това се прави, като се вземат огромни количества данни, за да се извлече значението от различните елементи на човешкия език, в допълнение към значенията на действителните думи. Този процес е тясно свързан с концепцията, известна като машинно обучение, което позволява на компютрите да научават повече, докато получават повече точки от данни. Това е причината повечето от машините за обработка на естествен език, с които взаимодействаме често, да се подобряват с времето.

За да осветим по-добре концепцията, нека да разгледаме две от най-високо ниво техники, използвани в НЛП за обработка на език и информация.

Токенизация

Токенизация означава разделяне на речта на думи или изречения. Всяко парче текст е символ и тези символи се показват, когато речта ви се обработва. Звучи просто, но на практика това е труден процес.

Да приемем, че използвате софтуер за преобразуване на текст в говор, като например клавиатурата на Google, за да изпратите съобщение до приятел. Искате да изпратите съобщение „Да се ​​срещнем в парка“. Когато телефонът ви вземе този запис и го обработи чрез алгоритъма на Google за преобразуване на текст в говор, Google трябва да раздели това, което току-що казахте, на токени. Тези токени ще бъдат „среща“, „аз“, „в“, „на“ и „парк“.

  Как да играете Roblox на Chromebook

Хората имат различна дължина на паузите между думите, а други езици може да нямат много малко в начина на звукова пауза между думите. Процесът на токенизация варира драстично между езиците и диалектите.

Стеминг и лемматизация

Изходът и лемматизацията включват процеса на премахване на допълнения или вариации към основна дума, която машината може да разпознае. Това се прави, за да се направи тълкуването на речта последователно в различните думи, които всички означават по същество едно и също нещо, което прави обработката на НЛП по-бърза.

Създаването е груб бърз процес, който включва премахване на афикси от коренна дума, които са допълнения към дума, прикрепена преди или след корена. Това превръща думата в най-простата основна форма чрез просто премахване на букви. Например:

„Ходенето“ се превръща в „разходка“
„По-бързо“ се превръща в „бързо“
„Тежест“ се превръща в „север“

Както можете да видите, отделянето на основата може да има неблагоприятен ефект от пълна промяна на значението на думата. „Тежест“ и „север“ не означават едно и също нещо, но наставката „ity“ е премахната в процеса на изхода.

От друга страна, лемматизацията е по-сложен процес, който включва редуциране на дума до тяхната основа, известна като лема. Това взема предвид контекста на думата и начина, по който се използва в изречение. Също така включва търсене на термин в база данни с думи и съответната им лема. Например:

  6 съвета как да направите часовника си Samsung по-добър от Google

„Аре“ се превръща в „бъди“
„Операция“ се превръща в „работа“
„Тежестта“ се превръща в „тежка“

В този пример лемматизацията успя да превърне термина „тежост“ в „тежък“, което е неговата форма на лема и коренна дума.

Случаи на използване на НЛП и бъдещето

Предишните примери само започват да надраскват повърхността на това какво е обработката на естествен език. Той обхваща широк спектър от практики и сценарии на използване, много от които използваме в ежедневието си. Това са няколко примера за това къде се използва НЛП в момента:

Предсказуем текст: Когато пишете съобщение на вашия смартфон, той автоматично ви предлага думи, които се вписват в изречението или които сте използвали преди.
Машинен превод: Широко използвани потребителски услуги за превод, като Google Translate, за включване на форма на НЛП на високо ниво за обработка на езика и превода му.
Чатботове: NLP е основата за интелигентни чатботове, особено в обслужването на клиенти, където те могат да помагат на клиентите и да обработват техните заявки, преди да се изправят пред истински човек.

Предстои още. Използването на НЛП в момента се разработва и внедрява в области като новинарски медии, медицински технологии, управление на работното място и финанси. Има шанс да успеем да проведем пълноценен изискан разговор с робот в бъдеще.

Ако се интересувате да научите повече за НЛП, има много фантастични ресурси Блог към науката за данни или Станфордска национална група за обработка на езици които можете да проверите.