Drawing Drawing











Digitale Intelligenz

- Emergenzbasierte Statistik -




Zentrum für Emergenzbasierte Statistik
http://zes.dhbw-vs.de

André Kuck

kuck@dhbw-vs.de

Inhalt

  1. Warum ist eine neue statistische Methodik überhaupt notwendig?

  2. Grundbegriffe der emergenzbasierten Statistik

  3. Anwendungsbeispiele zentraler Vorteile emergenzbasierter Statistik im Finanzsektor
    • 3.1. KnowledgeNets und Erklärbarkeit algorithmischer Prognosen und Entscheidungen
    • 3.2. Identifikation unprofitabler Teilportfolien im Kreditgeschäft
    • 3.3. KnowledgeWarehouses zur Stabilitätskontrolle des Kreditprozesses

1. Warum ist eine neue statistische Methodik überhaupt notwendig?

  • Unterschiedliche statistische und ML-Verfahren erzeugen aus dem gleichen Datensatz unterschiedliche Modelle für dieselbe Größe. Es ist nicht eindeutig überprüfbar, welches Modell und welche Prognose "richtig" ist. Es lässt sich kein widerspruchsfreies "Wissen" generieren.

Beispiel: EK-Anforderungen für die Commerzbank-Aktie bei Variation des internen Modells

Drawing
  • Derzeit verwendete Formen stochastischer Tests oder der Relevanzanalyse basieren meist auf sehr fragwürdigen Metriken und sind nur schwer interpretierbar.

Beispiele für Erklärungen:

Stochastische Interpretation eines linearen Regressionsmodells:

Weil (unter der Annahme der Normalverteilung der Störvariablen bei genau der geschätzten Varianz der Störvariablen und der Existenz eines "richtigen" linearen Modells) die Wahrscheinlichkeit, dass ein "richtiger" Koeffozient von 0 in der Grundgesamtheit einen größeren als den beobachteten Regressionskoeffizienten hervorbringt, kleiner als 1% ist, wird die Variable bei der Einschätzung der Ausfallwahrscheinlichkeit berücksichtigt (Der Koeffizient ist signifkant größer als 0).

LIME (lokale interpretierbare, modelagnostische Erklärung)

In der lokalen Umgebung des betrachteten Wertes haben die Variablen $X$ mit der jeweiligen Merkmalsausprägung $x_i$ in einer erkärbaren Approximation des betrachteten Modells nach einer Wichtigkeitsmetrik die folgenden Wichtigkeiten:

  • Die für die praktische Verwendung so wichtige Ursachenanalyse ist nur sehr eingeschränkt möglich.

  • Sie erzeugen Modelle, die nur als Ganzes zur Prognose verwendbar sind. Eine Weiterverwendung von "Wissensbausteinen" ist nicht vorgesehen.

2. Grundbegriffe der emergenzbasierten Statistik

  • Muster sind definiert als Relationen zwischen Funktionen von Sequenzen von Messungen
  • Ein emergentes Gesetz ist eine bisher wahre Allaussage darüber, dass ein "Muster" in Daten bisher immer beobachtet wurde.

Beispiel für ein einfaches emergentes Gesetze über Behandlungskosten:

In [6]:
aktlaw=LLaws(data,'df.costs',x='df.costs',bed_y='df.smoker==1',bed_x='df.smoker==0')
aktlaw.PlotLaws('ct')
display(aktlaw.DescribeLaw()[['Target','Bench','Bed_y','R','Bed_x','TU_ct','Div(TU_ct)','Min(TU_ct)','Max(TU_ct)']])
Target Bench Bed_y R Bed_x TU_ct Div(TU_ct) Min(TU_ct) Max(TU_ct)
0 df.costs df.costs df.smoker==1 > df.smoker==0 32 40.8125 1265.458363 45148.888383
  • In jeder Sequenz von $32$ Versicherten waren die durchschnittlichen Kosten der Raucher größer als die der Nichtraucher.

  • Dieses Muster wurde in $DiV=40,825$ ($+1$) nicht überlappenden Fenstern der Länge $T=32$ beobachtet.

Diese Aussagen sind annahmefrei.

  • Wir prognostizieren, dass auch in der nächsten Sequenz von $T=32$ Versicherten die durchschnittlichen Kosten der Raucher höher sein werden als die der Nichtraucher.

Diese Prognose ist nach 32 weiteren Beobachtungen exakt überprüfbar.

KnowledgeBase und KnowledgeNets

Emergente Gesetze sind objektiv, sie machen objektiv überprüfbare Prognosen, sie sind eindeutig interpretierbar und Modelle bestehen aus Wissensbausteinen, die vielseitig verwendbar sind.

Was bisher immer so war kann sich nicht widersprechen. Emergente Gesetze erlauben die Generierung von widerspruchsfreiem "Wissen" darüber was bisher immer war. (KnowledgeBases)

Unsere Algorithmen generieren SQL-Datenbanken mit unterschiedlichen Arten von emergenten Gesetzen, die die Vorteile unserer Methodik nutzbar machen.

Use Cases:

  • Analyse von Produktionsfehlern
  • Analyse von Maschinenstillstandszeiten
  • Call-Center-Planung
  • Personalplanung
  • Absatz- und Umsatzprognose
  • Makroökonomische Modelle und Prognosen
KnowledgeNets in einer KnowledgeBase


Drawing

KnowledgeNet:
Menge von im Bezug auf die durchschnittliche Kosten bisher immer geordneten und im Ergebnis zu disjunkten Mengen führenden Auswahlregeln (Pairwise Net).

Ein emergentes Gesetz aus diesem KnowledgeNet:

Versicherte, die

  • nicht weniger als 4007 Schritte pro Tag machen (~(steps<=4007.0)) und
  • einen bmi von mehr als 30,5 hatten (bmi>30.5) und
  • und nicht Nichtraucher waren (~(smoker==0))

verursachten in jeder Sequenz von T=4 Versicherten im Durchschnitt höhere Kosten als die Versicherten, die mit allen anderen Auswahlregeln im Netz ausgewählt werden.

Die Vorhersage, das dies auch in der nächsten Gruppe von 4 Beschäftigten wieder so sein wird, wurde in der Evaluierungsstichprobe bestätigt (Mean (oos) = 41082,087>37467,376).

Metagesetze

Die Prognose, dass ein Muster sich auch beim nächsten Mal wiederholen wird, ist eindeutig überprüfbar.

Man kann also in Teilsequenzen von Daten nach Gesetzen suchen und dann einfach zählen, wie viele Gesetze man gefunden hat und wie oft die Prognose, dass das Muster sich wiederholt, richtig war.

Für unterschiedliche Probleme ergeben sich die folgenden Zeitpfade der empirisch beobachteten Raten richtiger Prognosen (Rel) in Abhängigkeit von DiV:

Drawing

Sucht man in den Zeitpfaden von Prognosen und Bestätigungen nach emergenten Gesetzen, so findet man die folgenden Gesetze über die Mindestrate richtiger Prognosen (Rel) in Abhängigkeit von DiV:

In [7]:
pd.read_excel("C:/Users/Kuck/Documents/kuck/ZES/Homepage/RelsBeispiele.xlsx")
Out[7]:
DiV_Laws AirQuality Lending Club Crime Soccer
0 DiV=1 Rel > 0.5 Rel > 0.5 Rel > 0.5 Rel > 0.5
1 1<DiV<=2 Rel > 0.6 Rel > 0.6 Rel > 0.6 Rel > 0.5
2 2<DiV<=4 Rel > 0.7 Rel > 0.7 Rel > 0.7 Rel > 0.6
3 4<DiV<=8 Rel > 0.8 Rel > 0.8 Rel > 0.8 Rel > 0.7
4 8<DiV<=16 Rel > 0.8 Rel > 0.9 Rel > 0.8 Rel > 0.8
5 16<DiV<=32 Rel > 0.9 Rel > 0.95 Rel > 0.9 Rel > 0.95
6 32<DiV<=64 Rel > 0.95 Rel > 0.99 Rel > 0.9 Rel > 0.99
7 64<DiV<=128 Rel > 0.95 Rel > 0.99 Rel > 0.95 Rel > 0.99
8 128<DiV<=256 Rel > 0.99 Rel > 0.999 Rel > 0.99 NaN
9 256<DiV<=512 Rel > 0.99 Rel > 0.999 Rel > 0.99 NaN
10 512<DiV<=1024 Rel > 0.99 Rel > 0.999 Rel > 0.99 NaN
11 1024<DiV<=2048 Rel > 0.999 Rel > 0.999 NaN NaN
12 2048<DiV<=4096 Rel > 0.999 Rel > 0.999 NaN NaN

Der emergenzbasierte Induktionsschluss

Über bisher alle von uns untersuchten Probleme haben wir tatsächlich (bisher) universell richtige emergente Gesetze über die untere Grenze der Rate richtiger Prognosen in Abhängigkeit von DiV gefunden.

Die Anwendung auf obiges Beispiel folgt dann dem Grundmuster emergenzbasierten induktiven Schließens:

  • In jeder Sequenz von 32 Tagen waren die durchschnittlichen Kosten von Rauchern größer als die von Nichtrauchern.
  • Das Muster wurde in $DiV=40,82$ (+1) nicht überlappenden Fenstern der Länge $T=32$ beobachtet.
  • Es gab bisher für jedes Prognoseproblem eine Sequenz von Prognosen mit zwischen 32 und 64 mal bestätigten Gesetzen, für die die Rate richtiger Prognosen größer als 95% war.

-> Die Prognose, dass auch in der nächsten Sequenz von 32 Tagen die durchschnittlichen Kosten der Raucher größer sein werden als die der Nichtraucher, gehört zu einer Kategorie von Prognosen, für die bisher immer mindestens 95% richtig waren.

Überprübare Prognosen führen zu Gesetzen über die Mindestrate richtiger Prognosen (Metagesetze). Metagesetze erlauben die annahmefreie Suche nach Gesetzen mit einer bestimmten empirischen "Mindestqualität" zur Steuerung unserer Algorithmen.

3. Anwendungsbeispiele zentraler Vorteile emergenzbasierter Statistik im Finanzsektor

3.1. KnowledgeNets und Erklärbarkeit algorithmischer Prognosen und Entscheidungen


Unser Ansatz erlaubt die fast universelle Verwendbarkeit deduktiv nomologischer Erklärungen (Hempel-Oppenheim-Schema) zur Beantwortung von Fragen:

Trage alle

  • Beobachtungen und
  • empirischen (und ggf. logischen) Gesetzmäßigkeiten zusammen,

so dass die Konsequenz (die Antwort auf die Frage) logisch folgt.

Falls Gesetzmäßigkeiten oder Beobachtungen zur vollständigen Erklärung fehlen, lege Deine Annahmen offen.

Warum gehören Sie zu der Ratingklasse?

Die Klassifizierung auf Basis von Scores (Modellen) bietet hier einige Vorteile gegenüber gegenüber einfachen KnowledgeNets:

  • nach klassischen Metriken oft eine leicht bessere Prognoseperfomance (meist vergleichbar mit den derzeit besten Verfahren wie tiefen neuronalen Netzen oder XG-Boosting).
  • vollständige Erklärbarkeit der Einzeleffekte mit Hilfe von emergenten Gesetzen und individuellen Characteristika des Kunden.

Ein emergenzbasiertes Modell ist eine Sequenz von (nach einer Performance-Metrik) bisher immer nach T Schätzungen prognoseverbessernden (ggf. bedingten) Prognoseheuristik:

Beispiel Fico-Score

Drawing
In [8]:
pd.read_excel("C:/Users/Kuck/Documents/kuck/ELBS/Daten/fico_heloc/heloc_data_dictionary-2.xlsx",sheet_name='Tabelle1')
Out[8]:
Variable 1 Beschreibung Variable 2 Beschreibung.1 Wert Variable 1 Wert Variable 2 Effekt Score
0 ExternalRiskEstimate Consolidated version of risk markers PercentTradesWBalance Percent Trades with Balance 55 79.0 0.736130 0.736130
1 AverageMInFile Average Months in File NumTrades60Ever2DerogPubRec Number Trades 60+ Ever 65 0.0 0.024652 0.760782
2 NetFractionRevolvingBurden Net Fraction Revolving Burden. This is revolving balance divided by credit limit PercentTradesWBalance Percent Trades with Balance 80 79.0 0.113951 0.874734
3 MaxDelq2PublicRecLast12M Max Delq/Public Records Last 12 Months. See tab "MaxDelq" for each category NaN NaN 4 NaN 0.108444 0.983178
4 NumInqLast6M Number of Inq Last 6 Months NumSatisfactoryTrades Number Satisfactory Trades 11 51.0 0.129892 1.000000

Weil Sie bei der Variablen

  • $x_1$="External RiskEstimate" einen Wert von 55 haben und bei der Variablen
  • $x_2$="Percent Trades with Balance" einen Wert von 79 haben, und
  • die Verwendung der Schätzformel $0.6834-0.1766 \cdot ({{X_1}\over {22,01}} - {{X_2}\over{28,24}})$ bisher in jeder Sequenz von 2789 Kunden zu einer Verbesserung der Schätzung geführt hat und
  • die Prognose, dass dies auch in Zukunft so sein wir zu einer Klasse von Prognosen gehört, die bisher mindestens in 85% der Fälle richtig war.

wird ihr Score auf 0,7361 gesetzt

Weil Sie bei der Variablen

  • $x_1$="Net Fraction Revolving Burden" einen Wert von 65 haben und bei der Variablen
  • $x_2$="Number Trades 60+ Ever" einen Wert von 0 haben, und
  • die Verwendung der Schätzformel $0.2065-0.1102 \cdot ({{X_1}\over {39,39}} - {{X_2}\over{2,622}})$ bisher in jeder Sequenz von 2789 Kunden zu einer Verbesserung der Schätzung geführt hat und
  • die Prognose, dass dies auch in Zukunft so sein wir zu einer Klasse von Prognosen gehört, die bisher mindestens in 85% der Fälle richtig war.

wird ihr Score um 0.024652 auf 0.760782 erhöht.

...

Insgesamt ergibt sich bei Ihnen ein Score von 1.

Warum nehmen wir die gewählte Ratingklasse (Auswahlregel)?

Drawing

Weil

  • Sie einen Score von 1 haben und
  • bisher in jeder Sequenz von 4096 Kunden die Ausfallrate von Kunden mit einem Score>0,857 jeweils höher war als in allen andern Ratingklassen und
  • die Prognose, dass dies so bleibt zu einer Klasse von Prognosen gehört, von denen bisher immer mindestens 85% richtig waren.

Warum verlangen wir von Ihnen den Zinssatz (die Prämie)?

Hängt ab von der verwendeten Pricing-Regel.

Emergenzbasiert könnte man z.B. den Zinssatz (die Prämie) verwenden, die in einer Ratingklasse bisher immer (in jedem Jahr oder rollierend in jeder Periode von 365 Tagen) zur Deckung der Kosten geführt hätte:

Beispiel Insurance: Wir verlangen von Ihnen die Prämie r weil

  • Sie einen Score von s haben und
  • damit zur Ratingklasse S gehören
Drawing
  • in ihrer Ratingklasse in jedem Jahr so unsere Kosten gedeckt gewesen wären.
  • Die Vorhersage, dass diese Kondition auch im nächsten Jahr kostendeckend ist, gehört zu einer Klasse von Vorhersagen von denen bisher immer mindestens 80% richtig waren.
Drawing

Wie würde die Institution auf Veränderungen in Ihrem Verhalten reagieren?

• Auf welchen Wert muss man die einzelnen Variablen setzen, um in die nächst-bessere Ratingklasse zu kommen?

In [10]:
pd.read_excel("C:/Users/Kuck/Documents/kuck/ELBS/Daten/fico_heloc/heloc_data_dictionary-2.xlsx",sheet_name='Tabelle2')
Out[10]:
Variable 1 Beschreibung Variable 2 Beschreibung.1 Wert Variable 1 Wert Variable 2 Effekt Score Change Var 1 to Change Var 2 to
0 ExternalRiskEstimate Consolidated version of risk markers PercentTradesWBalance Percent Trades with Balance 55 79 0.736130 0.736130 87.0 37.0
1 AverageMInFile Average Months in File NumTrades60Ever2DerogPubRec Number Trades 60+ Ever 65 0 0.024652 0.760782 NaN NaN
2 NetFractionRevolvingBurden Net Fraction Revolving Burden. This is revolving balance divided by credit limit PercentTradesWBalance Percent Trades with Balance 80 79 0.113951 0.874734 12.0 NaN

3.2. Identifikation unprofitabler Teilportfolien im Kreditgeschäft

Kann man bei einer an das aktuelle Aufsichtsrecht angelehnten Pricingstrategie Gesetze über unprofitable Geschäftsbereiche finden?

Die üblich Vorgehensweise bei der RAROC-basierten Zinssetzung läßt sich an folgender Formel beschreiben:

$r_i=EL_i+r_e \cdot rwa_i+c_i$

mit

  • $r_i$ : Zinssatz für Kredit i
  • $EL_i=PD_i \cdot LGD_i$: Expectd Loss für Kredit i
  • $r_e$ : geforderter Eigenkapitalzins
  • $c_i$ : Prozesskosten für Kredit i
  • $rwa_i = SF \cdot (PDB_i-PD_i)\cdot LGD_{i}\cdot RLKF$ : aufsichtsrechtlich geforderte Eigenkapitalunterlegung für Kredit i
  • Skalierungsfaktor $SF=1.06$
  • $PD_i$ ist die aus dem internen Ratingsystem stammende Ausfallwahrscheinlichkeit für Kredit $i$.
  • $LGD_i$ ist die geschätzte Verlustrate bei Ausfall für Kredit $i$.
  • der Restlaufzeit-Korrekturfaktor $RLFK=1$ wird für das im Beispiel behandelte Privatkundengeschäft auf 1 gesetzt.

Wir verwenden als Datensatz die Daten der Peer-to-Peer Plattform Lending Club.

Wenn wir

  • Prozesskosten $c_i=0$ und
  • als Schätzregel den expandierenden Mittelwert für PD und LGD je Ratingklasse des Lending Club

verwenden, können wir nun mit einer

  • 3 Jahres $r_e$ von 15% pro Jahr (über drei Jahre also $r_e=1.15^3-1=0.52$)

den auf Basis des IRBA-Ansatzes zu fordernden Zinsatz berechen.

Diesen können wir dann den tatsächlich realisierten Einnahmen gegenüberstellen und versuchen, ob unser Algorithmus Regeln zur Identifikation nicht profitabler Teilportfolien findet:

Drawing

3.3. KnowledgeWarehouses zur Stabilitätskontrolle des Kreditprozesses

Was war in einem stabilen Prozess bisher immer so - Emergente Gesetze erlauben die eindeutige Kontrolle der Stabilität technischer und betriebswirtschaftlicher Systeme.

  • Ein KnowledgeWarehouse enthält KnowledgeBases die mit jeder neuen Beobachtung (oder nach anderen, festgelegten Ereignissen) upgedated werden.
  • Gesetze über die Intervalle, in denen interessierende Größen von Objekten eines KnowledgeNets bisher immer lagen, lassen sich dann auch graphisch als Worldview darstellen. (Kästchen im Film)
  • Diese Intervalle werden bei jeder neuen Beobachtung überprüft. (Punkte im Film)
  • Wir sagen, dass ein Objekt in einem Zeitfenster $T_{exo}$ beobachtet werden kann, wenn mindestens $T_U$ Messungen von dem Objekt im betrachteten Zeitfenster gemacht wurden.

Folgende Ereignisse lösen automatische Warnungen aus:

1. Warnungen über die Falsifikation von Gesetzen, die für die Objekte im KnowledgeNet gelten (Kästchen werden rot).

2. Warnungen über das Wiederauftreten unerwünschter (erwünschter) Objekte (graue Kästchen werden farbig)

Beispiel Lending Club: Ein auf einem Modell basierendes Pairwise-Net wird als Grundlage verwendet

Drawing

Grafische Darstellung der out-of-sample Entwicklung relevanter rollierender Mittelwerte in einem WorldView: