SSPS -Adatbányászat (konferencia összefoglaló)
10 perc olvasás
VIII. Adatbányászati és adatelemzési konferenciáját tartotta 2009. április 23-án az SPSS Magyarország. Ezt foglaljuk össze azon szakemberek számára, akik nem lehettek jelen. A téma szerteagazó mivoltára való tekintettel, csak címszavakban, hogy utol lehessen nézni.
VIII. Adatbányászati és adatelemzési konferenciáját tartotta 2009. április 23-án az SPSS Magyarország. Ezt foglaljuk össze azon szakemberek számára, akik nem lehettek jelen. A téma szerteagazó mivoltára való tekintettel, csak címszavakban, hogy utol lehessen nézni.
Prediktív analízis vagy analitikus CRM?
Ezzel a címmel tartotta bevezető előadását Kovács Gyula a Data Research Kft. ügyvezetője.
A 2005-ben alakult cég adatbányászattal és analitikus CRM tanácsadással foglalkozik.
Főbb szolgáltatásai:
-Üzleti konzultáció – adatbányászat, CRM tanácsadás, oktatás,
-Szektorszintű MOSAIC tanulmányok (http://www.mosaics.hu/),
-Churn Kompetencia Center (http://www.churn.hu/),
-Innováció (hálózat kutatás, hangbányászat),
-Üzleti szeminárium sorozat szervezése az SPSS Magyarországgal.
A Data Research jelenleg a jelentős BI tapasztalattal rendelkező Nextent cégcsoport tagja.
Mi jellemzi napjainkban a témakört?
Az adattárház piacon egyre szélesebb a kínálati oldal, az adattárház megoldások
-mindenki számára elérhetőek, (megfizethetők),
-a hardverek és a sw-ek egyre olcsóbbak,
-óriási nőtt kapacitások találhatók,
-az eszközök által nyújtott szolgáltatások egyre szélesebb körűek,
-jelentős bevezetési tapasztalat halmozódott fel,
-egyre nagyobb adattárházak jönnek létre (IDC: 57%-os méret növekedés/év),
-új, gazdaságos megközelítések kerülnek előtérbe,
-a „nagyok" (Oracle, Microsoft, IBM, Teradata) jelentős piaci részesedésre tesznek szert, különösen régiónkban.
Gyorsabb válaszidőkkel lehet dolgozni, a cél az események aktív irányítása.
Olyan real-time rendszerek építése szerepel a célkitűzésekben, melyek az aktuális igény kiszolgálására a másodperc töredéke alatt hoznak önállóan döntést.
Az algoritmusok fejlesztése a DM algoritmusok töretlen fejlesztése felé halad.
ÚJ ALGORITMUSOK:
1.Új modellező eljárások tűnnek fel:
-SVM (Support Vector Machine)
-LDA (Latent Dirichlet Allocation)
-HMM (Hidden Markov Model)
-Restricted Boltzmann Machine (Netflix-nél szép eredményeket ért el)
-HMM (Hidden Markov Model)
-ICA (Independent Component Analysis) – webes megoldás a hangkáosz szétszedésére.
A strukturált adatok csak a jéghegy csúcsát jelentik, újfajta adatforrások jelennek meg, a nem strukturált adatoknak (szöveg, hang, hálózat) az adattárházakba való integrálása is lehetővé válik.
2. Nem-strukturált adatok kinyerésének útja:
-Szövegbányászat – szövegek kategorizálása,
-Kereső motorok,
-Hangbányászat – szavak és érzelmek detektálása,
-Hálózati kutatás és gráf elmélet – közösségek detektálása,
A nem strukturált adatok kinyerése már nem álom, az elmúlt években számos magyar innováció fejeződött be text, illetve voice mining témában, ezek eredményei:
Text mining (SPSS Magyarország Kft.)
=szövegbányászat: egy szöveg értelmezése, pozitív vagy negatív véleményt tükröz,
Mindroom (Digital Natives)
=hangbányászat : csak jó minőségű videó anyagokon, beszélőre való adaptálással (tanítással), és tartalom függő -szövegfelismeréssel,
Voice Miner (Nextent Zrt. )
=hangbányászat : spontán beszédre, telefonos közegben (zajos háttér), tartalom független – kulcsszó és érzelem detektálás lehetséges.
Az adatbányászat jelene és fejlődési irányai:
-térhódítás az üzleti életben,
-Real-time data mining (RTD)
-üzletileg jobban hasznosítható modellek,
-módszertani fejlődés,
-analitikus CRM vagy Prediktív analitika.
Kik használják az új algoritmusokat az üzleti életben?
A regressziós függvények messzemenően a legnépszerűbbek az elemzők körében (84%), míg további 40% használja a döntési fákat.
– Business User számára az azonnali döntések támogatása a fontos, túlbonyolítás nélkül,
-az un. Academic User dolgozhat a mélyreható elemzéseket lehetővé tevő megoldásokkal.
Az alkalmazott elemző eszközök és alkalmazások:
DM szoftver piac :
Modellező eszközök
-Teljesen integrált elemző eszközök:
független, tradicionális (SAS, SPSS)
open source (Weka, Rapidminer, Orange, KNIME)
-Speciális részfeladatokra optimalizált szoftverek (WizWhy, prudsys Basket Analyzer, stb.)
-BI szállítók által kínált kiegészítő termék (Oracle, MS, IBM, SAP)
Célalkalmazások
-Kampány optimlizálás: SPSS Event Builder
-Clementine CAT (web-mining, analytical CRM)
-Szektor szintű célszoftverek – SAS megoldások
-Integráció támogatása – SPSS PES.
Mi alapján választunk data mining szoftvert?
A döntéshozók számára nagyon fontos szempont az adatelemző szoftver kiválasztásánál, az Aberdeen Group és Rexer Analytics közös kutatásának eredménye szerint:
-Stabilitás
-Nagyméretű adatok kezelésének lehetősége
-Ismétlődő feladatok automatizálása
-Az output minősége, az értelmezés egyszerűsége
(Forrás: SPSS/Data Research Kft. kutatása N = 58 (ebből 28% oktatás és 9% piackutatás ))
A Gartner Magic Quadrant ábrája szerint:
Az Open Source szoftverek dinamikusan fejlődnek – az akadémiai szektorban a Weka vagy az Orange nagyon népszerű. Az SPSS és SAS is támogatja az in database mining-ot.
A Gartner szerint az on-demand BI jelentős növekedés előtt áll, ez az adatbányászat esetében nem várható.
A levonható tanulság:
Operatív megoldások szállítására van szükség, nem elemzésekre!
A DM az üzleti szektorban :
Ad-hoc/leíró alkalmazások:
-Menedzsment döntések támogatása (64%)
-Folyamatok optimalizálása (gyártás/logisztika, ügyfél-kapcsolat, behajtás)
-Forecasting
(Szegmentáció, klaszterezés)
Pilot prediktív projektek
Árrugalmasság
Rendszerszerű/prediktív alkalmazások:
-Analitikus CRM/kampány menedzsmentet támogató modellek (25%)
Churn előrejelzés – forced és unforced modellek
Termék-affinitás modellek
Ügyfélérték
Szegmentáció (NBS)
(Credit) scoring
Cross-sell modellek
Outbound kampányok – használhatóbb modellek
A CustomerSurvey kutatása alapján 2009-ben az ügyfélmegtartást 350 CRM vezetőből 57% sorolta a TOP5 prioritás közé (Forrester)
Milyen veszélyekkel járhat egy ügyfélmegtartási kampány?
Uplift modellek – tetteink következményét is nézzük!
Ne csak az elvándorlási valószínűséget jelezzük előre, hanem a kampány várható reakcióját – milyen mértékben csökkenti az elvándorlási hajlandóságot az ajánlat?
A Telenor az ún. UPLIFT modell segítségével ki tudta szűrni az ügyfeleknek egy olyan 40%-át, akiknél a kampány nem csökkenti az elvándorlási valószínűséget (sőt!). A kisebb méretű kampány további 1,8%-al csökkentette a churn rátát!
Mindenki függ valamitől
Egy vállalati ügyfélről rengeteg adat áll rendelkezésre. Hagyományos modellezési eljárások segítségével kiszámolható a vállalatok kockázati értéke, de egy vállalat kockázati értéke függ más vállalatok kockázati értékétől.
Általában „mindenki függ valamitől", így egy magánszemély vagy vállalat viselkedése csak úgy érthető meg, ha látjuk kapcsolatait.
Inbound kampányok – új kihívások
124 marketing vezető közül közel 60% válaszolta, hogy már van tudatos inbound kampánya legalább egy csatornán, további 27% tervezte egy éven belül (Forrester, 2008).
De:
-Az inbound kampány targetálásánál a real-time scoret csak 5% tervezi használni (Forrás: Forrester N = 43)
-A válaszadók 28%-a szerint cége látókörébe kerülhet a real-time alkalmazás. (Forrás: SPSS N = 50)
Az információk üzleti értéke csökken, ha lassan reagálunk, ezért alkalmazzuk:
A Real-Time Decision-t: az interakció alatt keletkező adatok is értékesek (sőt!) – azonnal építsük be döntéseinkbe!
Az Inbound megkeresés esetén, használjuk ki azt az egyre ritkább alkalmat amikor
- az ügyfél felveszi a kapcsolatot a szolgáltatójával (pl. betelefonál),
- közli az okot, ami miatt a szolgáltatóhoz fordult (pl. panasz, új termék vásárlás, stb.),
- az ügyintéző kiszolgálja, és rögzíti az alaprendszerben.
A Real-time decision-t:
Termékeket ajánlva real-time az üzleti szabályok és prediktív modellek alapján az adott kontextus függvényében.
Az ajánlat eredménye alapján a modellek automatikusan frissülnek (self-learning).
A megtartás és keresztértékesítés együtt érvényesül.
Real-Time Decision esetén: az elemzés végén nemcsak a prediktív modellt kerül be a rendszerbe, hanem a modell készítés egész folyamata.
Hagyományos tanítási metódusnál: a modellek hetekkel maradnak le,
a folyamatosan öntanuló metódusnál: a modellek real-time frissülnek.
CRISP-DM módszertan – biztos hogy nincs ennél jobb?
KDD konferenciák gyakori témája, hogy a CRISP módszertan mennyire felel meg napjaink üzleti elvárásainak, így
-a folyamat teljesen eltérő kvalitásokat igényel,
-a data mining projekteknek általában nem része a deployment fázis,
-a módszertan elsősorban az offline modellezést támogatja.
Milyen fejlődési irányokat vehet az adatbányászat?
Egyszerre több, egymástól független fejlesztés új megoldásokat indíthat el:
-egyre gyorsabban feltöltött adattárházak + nem strukturált adatok azonnali feldolgozása + adaptív modellek –
RTD megoldások,
-az üzleti elvárások nőnek az adatbányászati elemzésekkel kapcsolatban, a szabályokból el kell távolítani az értéktelen részeket,
-prediktív modellek helyett uplift modellek, új asszociációs szabályok várhatók,
-újszerű szemléletmód kialakítása, web, közösségi eszközök aktív kihasználása,
-az egyén helyett a kapcsolatok elemzése következik.
……………….
Cseh Zoltán PhD, az SPSS Hungary konzultációs igazgatója szólt az új, átfogó elnevezésekről, s a mögöttük lévő tartalmakról.
Az újdonságok, a teljesség igénye nélkül:
SPSS Statistics 17: új hivatalos neve lett a "hagyományos" SPSS programcsomagnak, az egyéb SPSS termékek neveivel való összetéveszthetőség miatt. Ezentúl az SPSS szó inkább magára a cégre vonatkozik, az utána következő szó jelöli a cég valameny termékét. Más SPSS termékek illetve modulok neve is változni fog úgy, hogy a név egyértelműbben utaljon a termék funkciójára.
Új megoldásként bevezetik a PASW -t – ez az új „ernyőnév", benne jól ismert eszközökkel
A teljes termék-portfólión átívelő új név feloldása: Predictive Analytics Software (PASW)
Újdonságok az SPSS Statistics 17-ben:
http://www.spss.hu/hirek/ujdonsagok-az-spss-statistics-17-ben.html
PASW Modeler 13 – újdonságok
PASW Portfolio: a Modeler 13 (a korábbi SPSS Clementine) új funkciókkal:
-Ügyfél-elégedettség növelése – CLV models, Segmentation
-Lemorzsolódás csökkentése – Churn models
-Jó ügyfelek megtartása és inspirálása – Cross- / Up-Selling Models
-Kockázatok/veszteséges csökkentése – Fraud Analysis
-Üzleti analitikus kérdésekre gyors megoldások – Ad-Hoc analysis
További példák: Product profitability, Social networks, Campaign efficiency
A Modeler 13 újdonságok kiemelt, angol nyelvű összegzése:
1: Improved Tools and New Features
- Comments
- Variable Node Enhancements
- Data Output Preview
- Type Node Enhancements
- Password Protected Nodes
- Search for Nodes
- Improved decision list
- Stream Preview
- Visualization Improvements
- GenLin Enhancements
- Nearest Neighbor Node
- SPSS Statistics integration
- Split Support
2: Innovation and Automation
- Automated Data Preparation (ADP) Node
- Auto Cluster Node
- Auto Modeling
- Renaming of Auto Modelers
- High Speed CHAID
3: Broader Support for Integration
- Simultaneous Release
- Cross-Platform Excel 2007 Support
- OS Support
- Virtualization & Cluster Support
- Database Support
- SQL Pushback Enhancements
- Language Support
A portfolio elemei:
Data Collection:
Teljes és egységes ügyfél-nézet szállítása; viselkedés, attitűd, vélemények
SPSS Statistics
A bizonyosság biztosítása statisztikai kérdésekben és üzleti döntésekben.
Modeling:
Ismételhető előrejelzések, döntéstámogatás biztosítása.
Deployment:
Analitikus előnyök teljes kiaknázásának biztosítása.
Dimensions
Piackutatási programcsomag.
SPSS Predictive Enterprise Services (PES)
A vállalati analitika egységes üzemeltetési rendszere.
PASW Text Analytics – a korábbi SPSS Text Mining for Clementine
Szövegbányászati eszközsor.
Harmat Lajos