Published using Google Docs
Rückblick Workshop - Beschreibungen statt Metadaten -
Updated automatically every 5 minutes

Dokumentation OER Sommercamp 2024 Workshop 5 - Beschreibungen statt Metadaten ?!

Workshopbeschreibung

Hintergrund: Wir entwickeln Dienste zur maschinellen Unterstützung von Communities und Redaktionen bei der Erstellung und Pflege von Metadaten. Ein häufiges Problem dabei ist, dass wichtige Kontextinformationen in den Bildungsinhalten fehlen und sich nicht direkt ableiten lassen. Dies führt dazu, dass Algorithmen und KI-gestützte Systeme die Inhalte nicht optimal verschlagworten oder klassifizieren können.

In diesem Workshop wollen wir neue Prozesse entwickeln, um solche fehlenden Informationen zu erfassen und anzufügen. Wir werden untersuchen, wie wir die Erfassung dieser zusätzlichen Informationen vereinfachen können, welche Informationen überhaupt häufig fehlen und wie diese automatisierte Verschlagwortungsprozesse verbessern können. Zudem werden wir Strategien erarbeiten, um den langfristigen Nutzen und die Notwendigkeit dieser Informationen klar und verständlich darzustellen.

Es gibt voraussichtlich Verbindungen zum Workshop Bildungsdaten als Trainingsbasis für Mensch und KI.

Teilnehmer: Manuel Kummerländer (edu-sharing.net e.V.)

Notizen

Diskussion und Schärfung der Aufgabenstellung

Als Beispiel für die kommenden Tage dient folgenden Perspektive:

Redakteur WLO bekommt Fachtext mit Begleittext und versieht diesen Text mit Metadaten.

Nächste Schritte:

Wichtige Fragen:

"Welche Informationen über Dein Lernmaterial ist wichtig, um es finden zu können?"

Tagesziele:

An welchen Merkmalen unterscheiden sich die Rollen?

Was ist das Ziel des Systems? 

2 Varianten:

  1. das Material möglichst unverfälscht lassen. Keine Zusatzinformationen "erfinden".
  2. Zusatzinformationen hinzufügen

Da in einem ersten PoC nicht alle 50 Metadatenfelder berücksichtigt werden können, vorerst 3-5 einfache Metadaten, die viel “erschlagen”. (z.B. Schulart, Klassenstufe, …)

Reflex beim Nutzer des Dialogsystems auslösen -> ???

Leitplanken im Dialog - sonst kommen Anworten, wie zum Beispiel "Das Material hat im Feriencamp nicht funktioniert" - damit kann niemand etwas anfangen.

Ziel der Beschreibung muss zu Beginn des Gesprächs kommuniziert werden. Dann können eher freiere Fragen folgen

        1. Materialanalyse

        2. Intro mit Zielbeschreibung

3. Formulierte Frage, die auf das Ziel hinarbeitet nicht auf ein bestimmtes Metadatum.

        4. Antwort

        5. Analyse, welche Infos in der Antwort stecken.

Wo gewinne ich die meisten Informationen darüber, die am besten zwischen den Materialen unterscheiden, die unter einem Suchbegriff gefunden werden und dem Material, das ich tatsächlich suche?

Was passiert, wenn der Nutzer ein völlig anderes Mindset hat und man aus dem Text keine "vernünftigen" Metadaten extrahieren kann? Sollte dann ein Mensch darauf schauen?

Wenn statt Text nur wichtige Schlagworte angegeben werden, könnte eine KI daraus einen Begleittext erstellen.

Man könnte Default-Metadaten im Profil hinterlegen. Wenn zum Beispiel ein User iimmer nur Mathe-Materialien hochlädt, kann man das als default-Wert hinterlegen. Oder die für den user relevanten Fächer stehen ganz oben in der Auswahlliste.

Wenn jemand keine Lust hat, einen Text zu schreiben und nur die wichtigsten Schlagworte eingibt, kann man diese an ein LLM geben und das erzeugt einen Beschreibungstext. Oder man könnte die Auflösung von Schreibblockaden damit unterstützen, indem eine KI aus den extrahierten Daten einen Vorschlagstext (Textschnipsel) generiert.

Teilung der Gruppe

Erstellung eines ersten Prototypen

Ragflow

Knowledge Base

Chat Configuration

Assisstant Setting

Opener: “Über welche Ressource möchtest Du mit mir sprechen?”

Knowledge Base: OpenEduHubVocab

Chat Configuration

Im Wesentlichen wurde mit den default-Werten gearbeitet. Für den prompt probieren wir verschiedene Formulierungen in Kombination mit verschiedenen Sprachmodellen aus. Aus Zeitgründen versuchten wir lediglich eine Optimierung der Antworten und dokumentierten die Beobachtungen nicht.

Beispielprompt, der mit gpt-4 gute Ergebnisse lieferte:

You are an intelligent, curious, interested and patient assistant. Use german language.

The user wants to present their educational resource (OER). First the user gives you a input text. Try to reach the goal by finding as much metadata as possible in the input text. For missing informations

guide the user through a Dialog.

Ask up to five follow-up questions by responding to the user's answers and asking new questions in regard to the goal. Ask one question then wait for the user input and then ask the next question.

Goal: The aim of your questions is to generate metadata from all of the user's answers at the end. Metadata should contain at least the discipline, the learningResourceType, the schoolType, the oehTopics.

Your answers should take the previous chat history into account.

After five follow up questions, output the metadata as key-value pair list.

Use the knowledge base for generating the key-value pairs.

The output should contain conceptID URIs as keys and prefLabel.de as values from the Knowledge base. If no exact matching to metadata is possible try to find metadata similar as possible.

Here is the knowledge base:

          {knowledge}

The above is the knowledge base.

Model Setting

Hier wurde im Wesentlichen mit verschiedenen Sprachmodellen experimentiert.

Dank OpenAI-API-Key von metaventis konnten wir viel mit den gpt-Modellen experimentieren.

Standardmäßig kann man auf DeepSeek zugreifen. Es ist auch möglich, im Nutzer-Profil (hier Christiane) weitere Modelle hinzuzufügen (z.B. Allama, Gemini, Mistral …). Hierfür sind entsprechende Keys notwendig. Damit habe ich mich im Rahmen des Workshops nicht weiter befasst.

Miro-Board

https://miro.com/app/board/uXjVKnh1C58=/

Beschrieben sind hier Programmflow, MetaDoerte und SOERen.

Fotos

Liegen im gemeinsamen Ordner Fotos

Chatbot-PoC

Kann man ausprobieren unter: http://demo.ragflow.io/chat/share?shared_id=ragflow-E5ZThkMjY4NWZhYTExZWY4ZGIwNDIwMT&from=chat

Präsentation

Ws-5 #sc24 Ergebnis Workshop 5