conText konferencia 2016 - EUROASTRA

A Clementine Consulting 2016. november 29-én tartotta ötödik conText konferenciáját. A rendezvény a magyar nyelvű szöveganalitikát és annak üzleti alkalmazási területeit vette célba hazai példákkal, különös tekintettel a strukturálatlan adatok feldolgozására alkalmas, a piacot vezető hang-, szöveg- és adatbányászati megoldásokra.

A vonatkozó technológiákat, analitikát magyar vállalatok és szolgálatok sikerrel alkalmazzák. A magyar nyelvű beszédanalitika képességei mellett a rendezvény foglalkozott a mesterséges intelligencia hazai fejlesztésével is. Az ismerős hívószavak; Siri, Google Asszisztens, Watson, IBM szuperszámítógép. A mottó: „Körülvesz minket az analitika!"

Körmendi György, a Clemetine Consulting ügyvezetője a Watson arcai, avagy trendek a nagyvilágból címmel tartotta előadását. Az elmúlt években egyfajta csodavárás jellemezte a szakmát, mondta. Mindenki a Big Data-ról, Data Science-ről és társairól beszélt, s várták gyakorlatban érvényesülő hasznát. A felfutás azonban lassú volt, sokáig nem is nagyon látszott. Ebben az évben megszólaltak hangok, melyek le is hűtötték a felfűtött várakozást, s az érdeklődés a robotok felé fordult. Ezek alkalmazására készen állnak a technológiák. Itt negatív véleményekkel is találkozni, melyek az emberiség lehetséges „lealázásától" tartanak a robotok előretörésével. A robottechnológia azonban meglepően gyorsan nyer teret. Ma már virtuális robotokról, szellemi munkát, tevékenységet kiváltó „gépekről" beszélünk.

A nyelv-technológiával kapcsolatos robotfejlesztésről nincsenek hírek, de vannak a kapcsolódó területekről. A Webster Analitics éves kutatási jelentése szerint a leghagyományosabb területnek tekintett szöveg-bányászattal jelenleg az adattudósok 40%-a foglalkozik, s 32% tervezi ezt. A 2015-ös állapothoz képest több száz cég érdekelt a témakörben, de nagy a szórás a tőkeerő és hatékonyság tekintetében, a start-upoktól a hatalmas nemzetközi cégekig sokan foglalkoznak vele.

http://www.websteranalytics.co.uk

A Gartner elemzőcég idei koordinátáiban az összegzett adatok meglepően sok nyelv-technológiát tartalmaznak, ilyen pl. a Machine Learning (gépi tanulás), amely most a várakozások csúcsára került, a Big Data iránt pedig némileg csökkent a lelkesedés. A szorosabb nyelvi témakörben az answering és a conversation (válaszadó és „társalgó") gépi megoldások kerülnek előtérbe. Utóbbira példa lehet egy-egy szakértői rendszerben való alkalmazás.

http://www.toptenreviews.com/business/services/best-answering-services

http://readwrite.com/2016/10/05/iot-conversation-pl2

A felemelkedő ágat a mobil telefonokban is megtalálható (virtuális, digitális) personal assistant megoldások jelentik.

http://mobileappcost.com/google-now-siri-cortana-facebook-m-alexa-a-closer-look-towards-intelligent-virtual-assistants

http://money.cnn.com/2015/07/28/technology/digital-assistant-interview https://www.gartner.com/doc/3471559?srcId=1-3931087981

https://en.wikipedia.org/wiki/Machine_learning

Érett technológiának számít ma már a beszédfelismerés és a beszéd-szintézis.

http://www.antra.hu/szoftver/hangvezerelt-rendszerek/beszedfelismeres-technologiaja

https://hu.wikipedia.org/wiki/Besz%C3%A9dszint%C3%A9zis

https://www.google.hu/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&cad=rja&uact=8&ved=0ahUKEwjjl9nch9vQAhXoHJoKHXpACdgQFghHMAc&url=http%3A%2F%2Falpha.tmit.bme.hu%2Fmeresek%2Fttmer16a.pdf&usg=AFQjCNGTqvlvCHG1bHWHbRIQTKU8zn6hYg

A 2011. óta létező IBM Watson mesterséges intelligencia egyfajta technológiai gyűjtőplatformként működik, komplex, ipari megoldásokkal az egészségügyre, pénzügyre, kereskedelemre, stb.

Az utóbbi időben használt fogalom a Watson kognitív rendszer, ami nagy mennyiségű szakértői tudást, ill. az adott felhasználásra illesztett külön információkat tartalmaz. Ilyen pl. a Watson Healthcare, ahol a Watson Prology a rák gyógyászatát támogatja kezelési információkkal, leletekkel, képalkotó eljárások eredményeivel. A rendszer ezeket elemzi, összeveti, s végül egyfajta humán interakcióval, beszéd formájában, „konzultációval" teszi közzé.

https://hu.wikipedia.org/wiki/Watson_(mesters%C3%A9ges_intelligencia)

https://en.wikipedia.org/wiki/Watson_(computer)#Healthcare

http://www.ibm.com/watson/health/oncology/

A fenti rendszerek integrációja várhatóan felgyorsul a közeljövőben, de gondot okoz magyarításuk.

Dr. Németh Géza habilitált egyetemi docens, a BME TMIT (Távközlési és Médiainformatikai Tanszék) Beszédkommunikáció és Intelligens Interakciók Laboratórium vezetője az Intelligens asszisztensek – miért és hogyan? c. előadásában ismertette, merre fejlődik a technológia, valóban vannak-e már „beszélgető" robotok, mire képesek ezek, s melyek a mesterséges intelligencia fejlesztésének korlátai. Elmondta, saját laboratóriumán kívül még két csapat dolgozik a BME-n a gépi beszédkeltés, beszédfelismerés, ill. depresszó előrejelzés, hangulatelemzés, gégebetegségek feloldása témakörén.

Vajon miért foglalkoznak egyre intenzívebben a cégek (Apple, Microsoft, Google, Telenor) a digitális asszisztensek témakörével?

Az alkalmazás mobil telefonban és különálló csatlakoztatható eszköz formájában egyaránt feltűnik, a logika mindenütt azonos. Általánosságban szólva, a fejlesztések klasszikus iránya mára megváltozott. Korábban a kigondolt, kifejlesztett, előállított szerkezetet adták a felhasználó kezébe, akinek az vagy tetszett, vagy nem. Ma egyre inkább a szabványokkal meghatározott, felhasználó irányultságú szoftverfejlesztési megoldások felé halad a világ. Ennek része, hogy az ügyfélnek egyfajta optimális élményt szeretnénk adni. A beszéd-technológia itt tud jelentős mértékben hozzájárulni a megoldásokhoz. A legkedvezőbb ügyfél-élményhez számos követelményt kell egy időben teljesíteni. Az Optimal cég felmérése szerint az ügyféllel való kapcsolattartás időbeli fejlődése négy generációra osztható:

Hagyományos: telefonos kapcsolat

Többcsatornás: különálló telefonos és IT-s részleg, ami néhol valamilyen szinten össze van kötve, plusz v.milyen mobil, ill. info-pult

Korlátozottan kapcsolt csatornák

Egységes koncepció: különböző csatornák egységesen működtetve

A beszédtechnológia definíciós megközelítése:

Valamilyen gondolatunk van, amit valamilyen módon ki a karunk fejezni, ezt valamilyen agyi folyamat mentén megtervezzük, beszédszerveinkkel végrehajtjuk.

A másik oldalon van a feldolgozó technológia: bemeneten található a jelfeldolgozás, ennek forrása lehet mikrofon és kamera, sőt tapintásérzékelő, vérnyomás-érzékelő, agyi interfész (érzékelő). Ezután következik a jelek feldolgozása és bizonyos szintű megértése. A folyamat olyan bonyolult, hogy a „gépi zombik" fenyegetésétől még sokáig nem kell tartanunk…

Műszaki szempontból a magyar nyelv ragozó jellegű beszéde számít kihívásnak. Az angol nyelvet feldolgozó beszédtechnológiában a szókészlet a meghatározó. Jellegzetes meghatározás itt; „hány szavas a rendszerünk", ez azt jelenti, hogy két szóköz között van valami jel, s hány ilyen, egymástól különböző jel jelenhet meg. Ebben a megközelítésben az ablak, ablakon, ablakkal az három különböző szó. Az angol és magyar között a ragozó jelleg miatti eltéréseket jól jellemzi, hogy az angolban 20 ezer szóalakkal már le lehet fedni egy átlagos szöveg 97,5%-át. A 20 ezer szavas nyelvi felismerőnkkel a nyelvi hibák 2,5%-ot tehetnek ki a felismerés után. A magyarban csak az időjárásjelentés témakörében 13 ezer szó található… Amennyiben az angolban használt technológiát akarjuk magyarra alkalmazni, legalább 30-40%-os nyelvi hibával kell számolnunk. A 90% körüli fedettség elérésére 1-2 milliós (angol értelemben vett) szótárral kell dolgoznunk.

Hova tegyük nyelvi meghatározottságunkat?

A világban kb. 7 ezer nyelv használatos, ebből az anyanyelvet beszélők számát tekintve kb. a 65-75. helyen vagyunk, az Ethnolog cég számítása szerint.

http://home.arcor.de/sus

Ez a helyezés nem rossz, de a beszédtechnológiában nyelvünk nagy kihívást jelent, a legtöbb nyelvvel foglalkozó cég mintegy 75-80 nyelvet tud kezelni. A magyar az EU hivatalos nyelve, ezért mások számára is fontossá válunk, technológiákat magyarra is lefordítanak, de az adaptációra nyelvünk sajátosságai miatt az átlagosnál több energiát kéne fordítani, ezért a nagy szervezetek nem nagyon sietnek a fordítással. A gyakorlat azt mutatja, általában nem beszédtechnológiai szakértőt, hanem nyelvészt alkalmaznak fél-, vagy egy évre, hogy technológiájukat nyelvünkre adaptálják, s ezzel le is tudják a feladatot. Bizonyos szintű funkciókat, az ingyenes szolgáltatásokat ezzel jól meg lehet oldani, de a testre szabott megoldások iránti igény, komolyabb támogatási követelmény esetén nem számíthatunk rá.

Az okos telefon személyes tárgyunkká vált, sok mindent szeretnénk rajta keresztül elérni, de kicsi a kijelzője, nem is beszélve az okosóráról és társairól. Emiatt a beszéd ezeken alapvető eszköz lehet, valamilyen szintű alternatívaként.

A személyi asszisztensek szerepe (Microsoft tanulmány nyomán):

Bizonyos tevékenységek végzése érdekében rendszerezett információkat akarunk elérni, időnket pedig hatékonyan kívánjuk kezelni, pl. egy repülőút megszervezésekor. A szükséges technológia ehhez rendelkezésünkre áll, de bizalmi szempontból nem szerencsés, ha egy kisebb cég ilyen mennyiségű személyes és céges adattal rendelkezik rólunk, különösen, hogy az ügymenet nincs is szabványosítva. Az egyes létező ügymeneti elemeket összerakva minőségileg hatékonyabbak lehetünk, bár adódnak kérdések…

Miért költenek nagy cégek erre sok pénzt?

Egyre több az eszköz, 2020-ra az IoT-n 100 milliárd vesz bennünket körül. Mára az intelligens eszközök minden tekintetben tarolnak. Kb. 7,5 milliárd ember él a Földön, ebből aktív internet használó 3,5 milliárd, s kb. 3,6 milliárd mobil telefont használunk. A 12 évesnél idősebb emberek 70%-ának van mobiltelefonja. 2017-re 5 milliárd körül lesz a mobil használók száma, minden fizetőképes személy rendelkezni fog vele. A nagy cégek eladási mennyiségei telítésbe kerülnek, megoldási kísérletük; adjuk el a szoftvert.

http://www.worldometers.info/hu

A BME-n 2003-ban készítettek először okostelefonos beszédfelismerő alkalmazást, de akkor nem volt igény hasznosítására. Tíz év elteltével változott a helyzet, 2015. júliusával 1,6 millió alkalmazás volt az Android telefonokban, az Apple-nél 1,5 millió, a Microsoft telefonoknál 500 ezer. A gyakorlatban, a felmérések szerint, mintegy 30 alkalmazást töltenek telefonjukra a felhasználók, ebből is csak tizenkettőt használnak havonta. Aki új alkalmazást akar indítani, annak ebbe a 12-be kell bekerülnie. Amerikai kimutatás szerint, az emberek több időt töltenek mobiljukkal (2-3 órát), mint a tv-jükkel.A digitális asszisztensekkel a konfliktust hozó tevékenységeket kell lefedni (kiváltani). Ezeknek a megoldásoknak az operációs rendszer szintjén kell megjelenniük. A lehetőségeket a gépi tanulás új technológiája az un. mély tanulás, a Deep Learning teszi megvalósíthatóvá.

A Google mobil alkalmazásokban, ahol 10%-al nőtt a beszéd alapú keresés, sikerült a szó-hibaarányt 8%-ra csökkenteni. Hasonló eredményeket mutat a kínai Baidu keresője és a Microsoft hasonló alkalmazása is. A beszédfelismerés sikerrel képez egyfajta köztes réteget az IoT térhódítása közepette.

https://en.wikipedia.org/wiki/Deep_learning

A digitális asszisztensek témakörében a sikeres megoldást a számítógépes nyelvészet, az integrált nyelvi szolgáltatások és a strukturált, megfelelő adatok adják. A multik hatalmas erőfeszítéseket tesznek ezen a területen, aki megnyeri a versenyt, az fogja uralni a világot, hiszen akkor az asszisztens fogja eldönteni, hogy egy-egy funkcióra milyen almodult fog behívni. Ezért ő százalékot kérhet, hiszen ő adhat hozzáférést a felhasználóknak.

Egyik oldalon tehát van egy nagyértékű hatékonyság-növelési ígéret, másik oldalon egy hatalmas koncentráció létrejöttének obskurus lehetősége. Emiatt szabályozási kérdések is felvetődnek. Rengeteg személyes adat is kikerül a felhőbe. Kérdés; konkrétan fizikailag hova, milyen adat az, ki fér hozzá? Amennyiben az intelligens asszisztenst a cégek alkalmazottai elkezdik használni, akkor nagy mennyiségű céges információ fog megjelenni a felhőben. Kérdéses, hogy egy ilyen (intelligens asszisztens szolgáltató) multival való „ingyenes" szolgáltatói szerződés milyen korrelációkat fog okozni? Minden ilyen szerződést óvatosan kell kezelni, különösen, ha egyéb csatornákon keresztül rálátás nyílhat digitális lábnyomunkra. Ilyenkor ezek az intelligens asszisztens tulajdonosok a cégekre vonatkozó rendkívül részletes profil birtokába jutnak, amit akár el is adhatnak a versenytársaknak.

A személyi asszisztensek folyamatosan be vannak kapcsolva, így folyamatos hang-, ill. kép információ is rögzítésre kerülhet. Ezek az adatok pedig összekapcsolhatók.

A várható fejlődés:

Szabály alapú modellekből indultunk ki nagyon sokáig a felismerésben is, ma ehelyett próbálunk minél több mintát gyűjteni, egyre nagyobb halmazokat. Amikor elég sok mintánk gyűlt, akkor építeni tudunk egy statisztikai modellt. Létezik olyan minimális jelfeldolgozású modell, amivel csak hullámformát rögzítünk, ezt beadjuk egy neurális hálónak, s a kimeneten egy kezelhető hullámformát kapunk. A döntő kérdés, hogy hiteles, és az adott tranzakcióhoz annotált adat rendelkezésünkre áll-e.

Az igazi kincs nem az előtérben levő technológia, hanem az, hogy ennek segítségével hogyan tudunk valós felhasználókról minél több, hitelesen valorizált adatot produkálni. Ennek minőségét pedig akkor tudjuk megítélni, ha valamilyen egységes kiértékelést tudunk végezni, amivel eldönthetjük, hogy az az adatunk valóban érvényes-e, hiteles-e, kiértékelésünk pedig az adatok szempontjából releváns-e vagy sem.

A gépi beszédkeltésben a BME-n létrehozott alkalmazások:

Elektronikus levélfelolvasó

Képernyő felolvasó

SMS felolvasó fogyatékosok számára

A beszédtechnikai alkalmazás általában egy összetett rendszer kis része. Hatékony működéséhez a környezet minden interfészéhez, eleméhez szabályos hozzárendeléssel kell rendelkeznie.

Vakok számára pl. a gépi beszédkeltésben a természetes hangzás és az érthetőség két különböző paraméter. Szükség van itt a beszédsebesség állíthatóságára is. Fontos, hogy a rövidítések feloldásakor a rendszer véletlenül se tévesszen.

Megvalósult BME fejlesztés:média-archívumban való keresés, automatikus szinkronizálás, nézettségmérés, automatikus egészségügyi tanácsadás (gégerák, Parkinson, Alzheimer, korai depresszió), pszichológiai állapotkövetés sark-kutatóknál.

A konferencián elhangzott további előadások témái:

Emilia, a Clementine virtuális asszisztense, működtető technológiái a beszédfelismeréstől a beszédszintézisig

Képileg segített tartalomelemzés a Precognoxnál

Szöveganalitikai esettanulmányok a véleményelemzéstől a banki alkalmazásig

Természetes nyelvi egységek ábrázolása folytonos reprezentációkkal

A munkavállalói igények feltérképezése és a munkáltatói márka hitelességének vizsgálata munkavállalói vélemények alapján, szövegbányászattal

A multimodális keresés és tartalomelemzés lehetőségei.

Clemtext 3.0 bemutatása

A szöveganalitika és a fiziológiás stresszmérés egy call center példáján

OSINT ma és holnap szöveganalitikával

http://clementine.hu/context

Harmat Lajos