DrJanisMeyer

Mein Weg zur KI

Mein Weg zur dokumentenbasierten KI begann 2018 bei einem Projekt bei einer Großbank. Mit hohem manuellem Aufwand mussten Kennzahlen aus Finanzberichten extrahiert und in eine Datenbank übertragen werden. Die Bank sah es als unlösbares Problem an, diesen Prozess zu automatisieren. Für mich hingegen war es der Startschuss, mich mit diesem Problem zu beschäftigen.

Ich habe mich auf die Suche gemacht und existierende Forschungsergebnisse aus dem Bereich der Künstlichen Intelligenz zu dem Framework deepdoctection zusammen gefasst. Im Ergebnis war nicht nur das Problem des Kunden gelöst, sondern auch vielfältige andere manuelle Prozesse in der Verwaltung können mit dem Framework angegangen werden.

Durch den Einsatz von deepdoctection kann  in verwaltungsintensiven Branchen der Aufwand massiv reduziert und gleichzeitig die Fehlerquote deutlich gesenkt werden.  Überdies erlaubt die Automatisierung beliebige Skalierung des Vorhabens.

 

Meine fachlichen Schwerpunkte

 

+++ Mehrjährige Expertise in Machine Learning und Deep Learning rund um das Document Intelligence (Klassifikation und Extraktion von Informationen aus komplex strukturierten Dokumenten). Hierzu gehört theoretisches und technisches Know-How in der Anwendung und Optimierung von OCR.

+++ Visuelle Methoden zur Strukturierung von komplexen Dokumenten sowie Ableitung und strukturierte Extraktion von Entitäten mit NLP-Methoden (Named Entity Recognition, Entity Linking, Token Classification, Text Classification etc.).

+++ Mehrjährige Erfahrung bei der Integration und dem Aufbrechen von Silostrukturen (z.B. Integration von Finanz- und Risikodaten) in großen Transformationsprojekten bei Banken.

+++ Langjährige Erfahrung in der Beratung, Business-Analyse und Konzeption von Umsetzungen bei Kreditinstituten und Kapitalverwaltungsgesellschaften in den Bereichen Accounting, Controlling, Risiko-Controlling und Meldewesen.

Projekte (Auszug)

 

Entwicklung des Open Source Python Packages deepdoctection zum Parsen und Extrahieren von Informationen aus komplex strukturierten Dokumenten (1500+ Stars)

https://github.com/deepdoctection/deepdoctection 

  • Deep-Learning basiertes adaptierbares Parsen von komplex strukturierten Dokumenten
  • Layout-Erkennung, Tabellenerkennung und Segmentierung, OCR und strukturierte Ausgabe für Downstream Tasks (zum Beispiel Feed zu OpenAI)
  • Adaption der integrierten Modelle auf eigene Dokumentstrukturen zur Erhöhung der Extraktionsqualität
  • Orchestrierung der Pipeline (Speichern der gelieferten Daten, Logging)
  • Einbindung von Python Drittpackages in Pipelines durch einfache Schnittstellen-API

(Krankenkasse)
Einführung einer Document AI Plattform

  • Automatisierte Verarbeitung der Anhänge des E-Mail-Posteingangs
  • Klassifikation der Anhänge (Arztbrief, Rezept, etc.)
  • Anleiten bei der Erstellung Annotationen
  • Training von image transformer encoder (Donut type model)

(Dipf – Leibniz Institut für Bildungsforschung)
Erstellung einer Datenbank von literarischen Quellverzeichnissen 

  • Extraktion von Literaturverzeichnissen aus wissenschaftlichen Publikationen
  • Verwendung von Vision (Detectron2), OCR (AWS Textract) und NLP-Modellen (SpaCy)

(Cloud-Anbieter)

Einführung eines Deep Learning basierten Frameworks für PDF-Tabellenextraktion (Tabellenerkennung und Tabellensegmentierung)

  • Sammeln und Aufbereiten von Trainingsdaten
  • Trainieren und Evaluieren der Modelle
  • Implementierung von Prä- und Postprozessen
  • Produktivsetzung und Iterierung
  • Aufsetzen eines Prozesses für Re-Training und Performanceüberwachung in der Produktion

(Universitätseinrichtung) 

Entwicklung eines Deep Learning Models zur Extraktion von Rechnungsentitäten

  • Sammeln und Annotieren von Trainingsdaten
  • Trainieren und Vergleich multilingualer NLP-Modelle
  • Produktivsetzung in privater AWS Umgebung. Entwicklung einer Rest API

    Diverse Projekte bei Finanzinstituten, Universalbanken und Kapitalverwaltungsgesellschaften 

    • Diverse Themen bei der fachlichen Konzeption zur Einführung eines Finance- und Risk Datawarehouse

    Automatisierte Abstimmung des Buchungsstoff zwischen Kernbank- und Accounting System

    Verwendung von NLP spezifischen Frameworks: SpaCy und Regex

    Anbindung diverse Quellsysteme. Konzeption von Schnittstellen für Zielsysteme (z.B. Meldewesen Abacus DaVinci/A360)

    Konzeption von Business-Logik, die in die ETL-Strecken abgebildet werden mussten.

    • Fach- und Feinkonzeption sowie Implementierung einer Access-Datenbank (inkl. VBA und Interfacegestaltung) zur Erzeugung von Buchungen im Hauptbuch, die Hedge-Accounting Effekte betreffen

     

    • Konzeption und Implementierung von Stress-Test Szenarien bei einer KVG. Berücksichtigung von Marktpreis-Zins- und Op-Risiken. Abstimmung der Abbildung mit der Geschäftsführung und dem internen Audit.

      Programmier- und Softwarekenntnisse

      Python 3

      NLP Frameworks: Huggingface (Transformers, Huggingface-Hub, Datasets), SpaCy >=2.0, Kenntnis diverser Sprachmodelltypen (BERT, RoBERTa, T5, ELMo etc.) sowie spezialisierte multimodale Abwandlungen für Document AI (z.B. LayoutLM, TRIE).

      OCR Frameworks: Tesseract, AWS Textract, MMOCR, PaddleOCR

      Vision Frameworks: Detectron2, MMDETECTION

      Allgemeine Deep-Learning Frameworks: Tensorflow, Tensorpack, PyTorch, Torchvision, PyTorch Lightning

      Data/Experiment-Version control: DVC

      Annotation/Data Labeling: Prodigy

      Allgemein: Numpy, Pandas, Matplotlib, OpenCV, Scikit learn, multithread programming

      Development/Test: MyPy (Type Checking), Pylint, Pytest

       

      Allgemein

      Version control: Git

      Python IDE: PyCharm, Spyder

      Weitere: Jupyter Notebook/ Jupyter Lab

      Container Virtualising: Docker

      Cloud-Service: AWS Sagemaker

      Datenbanken: Oracle SQL Developer, Microsoft SQL Server, MongoDB

      Microsoft Office: Excel, Access, Powerpoint, einschließlich VBA

      Basiskenntnisse: C/C++, Rust

       

      Beruflicher Werdegang

      seit 7/2017
      Selbstständiger Unternehmensberater,
      Data Scientist, Open Source Developer

      7/2017-12/2018
      Partner, Dataspark GmbH&Co KG

      9/2008 – 6/2017
      Senior Consultant, Konkret: Unternehmensberatung GmbH

      9/2006 – 8/2008
      Stipendiat der DFG, University of Nottingham (UK)

      10/2002 – 09/2006
      Wissenschaftlicher Mitarbeiter, TU Berlin

      Akademischer Werdegang

      2005
      Promotion in Mathematik zum Doktor rer. nat.

      TU Berlin

      2002

      Studium der Mathematik mit Nebenfach Physik

      TU Berlin

      Fremdsprachen

      Englisch

      Französisch

      Kontaktieren Sie mich

      und vereinbaren Sie ein kostenfreies Expertengespräch!

      Logo Dr Janis Meyer, Kuenstliche Intelligenz

      TELEFON

      015111301964

      E-MAIL

      jm@drjanismeyer.de

      ADRESSE

      Sartoriusstraße 30
      20257 Hamburg