Review – Linked Data

Zusammenfassung:

Linked Data ist ein alternativer Ansatz, um Daten in einem Netzwerk z.B. dem Internet zu verlinken. Solch ein Netzwerk wird Semantic Web genannt. Statt Links und Daten zur Verfügung zu stellen, wird ebenfalls seine Semantik erfasst. Das bedeutet, dass beispielsweise Suchanfragen weniger fehleranfällig werden, beispielsweise bei Worten, die in verschiedenen Themenbereichen verschiedene Bedeutungen haben (z.B. Computermaus und Maus als Tier). Linked Data wird als die Zukunft für das Web angesehen, konnte sich bisher aber noch nicht durchsetzen. Neben den positiven Aspekten von Linked Data, gibt es auch bisher ungelöste negative Aspekte. So ist es zwar jedem möglich Daten einzuspeißen, aber durch fehlende Kontrollinstanzen können redundante und widersprüchliche Informationen in das Semantic Web gelangen.

Positiv:

Im Allgemeinen sehr gute Struktur, Lesbarkeit, Sprache, Grammatik.

  • Sehr gute Lesbarkeit / Lesefluss
    • Ausbalancierte Abschnitte
    • Gut gegliederte Kapitel
    • Sinnvolle Zeilenumbrüche und Leerzeilen
    • Man wird nie von einer Wall of Text erschlagen
  • Beispiele und Veranschaulichungen:
    • Gute Beispiele, die zur Veranschaulichung eines Konzeptes dienen:
      • z.B. Die erläuterung von Kontext in Kombination mit Suchanfragen (In der Einleitung mit “Maus”)
    • Der Abschnitt von “Linked Data-Browser” ist sehr gelungen:
      • Durch den zweiten Teil (mit dem Beispiel) kann man sich eine gute Vorstellung über das Semantic Web und seineFunktionsweise zu machen
    • Guter Bezug zu bereits vorhandener Technologie z.B. dass Google teilweise (schon) solche Technologie nutzt.
  • Aufzählungen von Anwendungen / Webseiten und deren Nutzen:
    • Weckt Interesse diese mal benutzen (zu können) vor allem Linked Data-Browser und Linked Data-Suchmaschinen, mir war vorher nicht klar, dass es sowas gibt.
  • Quellen
    • Recht viele Quellen für die Anzahl der Seiten. Das vermittelt den Eindruck, dass der Author, sich mit dem Thema tiefgehend auseinandergesetzt hat.

Negativ:

Im Allgemeinen nur sehr kleine / konkrete / spezifische Fehler. Zwar sieht die Liste lang aus, dafür sind die meisten Punkte davon recht klein / einfach zu beheben.

  • Falsche Zitiertechnik (Referenz gehört zum Satz und Leerzeichen vor einer Referenz) an fast jeder Stelle:
    • Ich bin ein fehlerhaftes Beispiel.[1]
    • Ich bin ein korrektes Beispiel [1], und ich ein weiteres [2].
  • Abkürzungen
    • Im Paper werden viele Abkürzungen benutzt, viele von ihnen werden nicht erklärt, manche erst zu spät:
      • z.B. wurde W3C nie erläutert
      • URI wird erklärt / ausgeschrieben, aber erst nachdem es schon einige male verwendet wurde
  • Referenzen:
    • Nur eine(!) Nicht-Internetquelle, eventuell mehr (Fach)literatur nutzen.
    • Manchmal fehlende Titel / Namen der Internetquellen, nur der Link wurde angegeben z.B.[10], [11] und [15].
  • Deutsch / Englisch in der Struktur:
    • “Abstract” und “Short Overview” aber “Einleitung”,  “Prinzipien” etc.
  • Komische Struktur bei Kapitel 3:
    • “3 Anwendungen” ohne Text, dann direkt “3.1 Generische Anwendungen”, aber es gibt kein 3.2 mehr. Daher: Warum diese Struktur? Warum nicht direkt z.B.: “3 Generische Anwendungen”?
    • Außerdem meist unschön nach Kapitelanfang oder Abschnittsanfang keinen Text zu schreiben.
  • Überschrift von Kapitel 1:
    • Eventuell “Was ist Linked Data?” aus der Überschrift nehmen. In der Einleitung zum Thema Linked Data, sollte klar sein, dass dieser Begriff dort erklärt wird. Außerdem werden auch weitere Begriffe und Konzepte erläutert als Linked Data.
  • Kleinere Inkonsistenzen / Rechtschreibfehler:
    • Im Abstract: “Google”, “”Yahoo”, “Facebook” später in einem der letzten Sätze: Yahoo, Google ohne Anführungszeichen
      • Entweder immer mit Anführungszeichen oder immer ohne oder beispielsweise kursiv
    • Im Abstract “Linked Open Data”, später im Stand der Technik: “Linked Open data”
    • Kurz vor Ende “…in der Entwicklung unsres Webs.”
  • Komische Sätze:
    • Klingt nach einer doppelten Erklärung, der zweite Satz bringt keine klarheit sondern beschreibt fast dasselbe (3. Satz in der Einleitung): “Um zu verstehen was Linked Data ist, muss man sich zuerst einmal mit dem semantischen Web auseinandersetzen. Dies basiert auf der Idee, das Web um das Model des semantischen Netzes zu erweitern.”
    • Nach den 4 Punkten bei Prinzipien (eventuell Copy & Paste Fehler?):
      • “… HTML (Hypertext Markup Language)[6] als universaler Zugangsmechanismus und HTML (Hypertext Markup Language) als das gewöhnliche Inhaltsformat[7].”
  • Zahlen:
    • Kleine Zahlen ausschreiben, statt das Zeichen zu verwenden (Direkt am Anfang von “2 Prinzipien”:  “Tim Berners-Lee stelte 4 grundlegende ….”)

Urteil:

Minor Revision.

Das Paper gibt einen guten Einblick in die Thematik, ich kann mir nun etwas unter Semantic Web und Linked Data vorstellen. Durch die klare Struktur, die gute Rechtschreibung und Grammatik, die verwendete Beispiele und dem guten Schreibstil lies sich das Paper sehr gut / fließend lesen. Viele Abkürzungen und deren Bedeutung sind mir jedoch noch unklar, für einen Experten stellt dies vermutlich kein Problem dar, aber für neue Leser.

Prosecode Heapsort

Heapsort (list), fügt eine Liste list in einen Heap ein und gibt sie in sortierter Reihenfolge wieder aus, wahlweise vom kleinsten zum größten Element bzw. umgekehrt. Durch die Eigenschaften der Datenstruktur Heap befindet sich an der Stelle heap[0] immer der kleinste/größte Eintrag der Liste.

Die Schritte des Algorithmus:

1. Einfügen der Listenelemente in den Heap:
Das einzufügende Element aus der übergebenen Liste list wird an der Stelle i auf den Heap       gelegt und i um 1 erhöht. Dies wiederholt sich bis list leer ist:
for each position i in list –> heap.insert(list[i])

2. Auslesen des Heaps:
An Stelle heap[0] befindet sich das kleinste/größte Element. Dieses wird aus heap entfernt und zurück in list gespeichert. Dies wiederholt sich, bis heap leer ist. In list befindet sich anschließend die sortierte Folge:
while heap.length not 0:
heap.remove(heap[0])
and
for each position i in list –> list[i] = heap.remove(heap[0])

Algorithms

/**
* Performs a sequential search using sentinel
* and changes the array after the value is found
*
* @param array $arr
* @param mixed $value
*/
function sequential_search(&$arr, $value)
{
$arr[] = $value;
$index = 0;
 
while ($arr[$index++] != $value);
 
if ($index < count($arr)) {
 
// put the item at the front of the list
array_unshift($arr, $arr[$index-1]);
 
// remove the value from its previous position
unset($arr[$index]);
 
// unset the sentinel
unset($arr[count($arr)+1]);
 
return true;
}
 
return false;
}
 
// the list
$arr = array(1, 2, 3, 3.14, 5, 4, 6, 9, 8);
 
// the value
$x = 3.14;
 
if (sequential_search($arr, $x)) {
// now the array is changed to
// (3.14, 1, 2, 3, 5, 4, 6, 9, 8)
echo "The value $x is found!";
} else {
echo "The value $x doesn't appear to be in the list!";
}

 

Ich würde die Hausaufgabe gerne machen,aber im ersten Semester kenne ich mich damit leider noch nicht aus:/

 

Recap Session 9 – Algorithms, Graphs, Figures, and Tables

THE BIG BANG THEORY -- Brainy best friends Leonard (Johnny Galecki, not pictured) and Sheldon (Jim Parsons, right), can tell you anything you want to know about quantum physics, but when it comes to dealing with everyday life here on earth, they're lost in the cosmos. Neither fully understands that scientific principles don't always apply in matters of the heart - until they meet their sexy new neighbor, Penny (Kaley Cuoco, left), a friendly screenwriter/waitress from the Midwest who also happens to be newly single. THE BIG BANG THEORY will premiere this Fall, Mondays, (8:30-9:00 PM ET/PT) on the CBS Television Network. 2007 Upfront Photo: Greg Gayne/Warner Bros. ©2007 Warner Bros. Television. All Rights Reserved.

Photo: Greg Gayne/Warner Bros. ©2007 Warner Bros. Television. All Rights Reserved.

Die heutige Sitzung hatte das Thema “Algorithms, Graphs, Figures, and Tables”. In Vorbereitung dazu hattet ihr die Kapitel 10 und 11 aus Zobels “Writing for Computer Science” gelesen.

Heute haben wir den Klassenraum mal umgedreht und ihr durftet die Tafel verschönern. In einem Flipped Classroom-Szenario habt ihr gemeinsam den Stoff erarbeitet, präsentiert und diskutiert.

IMG_2345

Im folgenden findet Ihr noch einmal ein paar Stichpunkte zu den einzelnen Abschnitten bzw. Kapiteln:

Allgemein

  • das wesentliche in den Fokus setzen (kein unnötiger optischer Clutter)
  • keine Screenshots (→ Vektorgrafiken)
  • gleiche Schriftgröße und -arten
  • aussagekräftig
  • Nummerierung von Abbildungen und Tabellen zur Referenzierung im Text
  • Captions kurz und informativ, so dass Abbildung + Unterschrift eigenständig stehen und vom Leser verstanden werden kann

Algorithmen

  • keinen Quellcode in einer Programmiersprache verwenden
  • drei Abstufungen: Pseudocode, Prosecode, Literate Code
  • mathematisch korrekt arbeiten (Präzision!)
  • konsistenten Notation
  • keine Screenshots von Quellcode
  • Latex: Listings-Umgebung nutzen

Diagramme und Abbildungen

  • keine Farben, besser Graustufen
  • Strichstärke von Rahmen vs. Funktionen beachten
  • korrekte Achsenbeschriftung und -Skalierung
  • Labels für Datenreihen
  • Abbildung zur Visualisierung von Trends, Ausreißern, Phänomenen

Tabellen

  • keine Grid-Tabellen, vertikale Trennung durch Whitespace
  • Hierarchie in Tabellen abbilden
  • Tabellen benutzen, wenn nur wenige Werte in Datenreihen zu zeigen sind oder wenn konkrete Zahlenwerte zu zeigen sind

ich habe noch einen interessanten Artikel in diesem Zusammenhang gefunden: “8 Simple Tips for Better Data Visuals”.

Während der Diskussion sind wir auf LaTeX zu sprechen gekommen und ich habe Euch ein paar Tricks und oft benutzte Pakete gezeigt. Dazu wird es noch einen gesonderten Post geben.

Wir haben uns noch ein paar Negativ-Beispiele zu Abbildungen angesehen und an diesen analysiert, was alles nicht passt.

Die heutige Sitzung war unsere letzte Input-Sitzung.  In den kommenden 3 Wochen werdet Ihr Euch mit Euren Student Project-Papern beschäftigen, bevor wir in der letzten Sitzung nochmal alles zusammentragen, was wir das Semester so getrieben haben.

Die Sitzung in der kommenden Woche ist ein Angebot an Euch, in vertrauter Schreibwerkstatt-Atmosphäre an Euren Papern zu schreiben, Fragen zu stellen und Hilfe in inhaltlichen und technischen Belangen zu bekommen. Ich werde im Lab sein und ebenfalls schreiben.

Wenn ihr es vorzieht, zu einer anderen Zeit an einem anderen Ort an Euren Papern zu arbeiten, ist das auch OK. You choose your path, young padawans!

Hausaufgaben

(entnommen und angepasst aus Zobel “Writing for Computer Science”, S. 273)

  1. Choose a simple algorithm and a standard description of it, such as linear search in a sorted array. Rewrite the algorithm in prosecode. Repeat the exercise with a more interesting algorithm, such as heapsort.

Recap Sitzung 8 – “Good style and style specifics”

scientific-parody-of-style-by-ta
Wie immer haben wir unsere Schreibwerkstatt mit einem Schreibprompt eröffnet und heute zur Frage “Wie sieht deine Stadt in 100 Jahren aus?” geschrieben.

Im Hauptteil der gestrigen Sitzung haben wir uns mit damit beschäftig, was guten Stil beim wissenschaftlichen Schreiben ausmacht und was spezifische Charakteristika dieses guten Stils sind. Dazu hattet ihr als Hausaufgabe die Kapitel 6 und 7 aus “Scientific Writing for Computer Science” gelesen. Wir haben die Aspekte aus diesen Kapitel zusammengetragen und an der Tafel als Mindmap visualisiert:

goodstyle_mindmap_bsc

Einige Charakteristiken wie “einfache Sätze” sind uns im Lauf des Seminars schon öfter begegnet, andere waren neu und mitunter kontrovers, so etwa, dass man es vermeiden sollte, ständig Alternativen für Worte einzuführen um Wiederholungen zu vermeiden.

Die beiden Kapitel sind miteinander stark verbunden und man kann sie in ihrer Abfolge als Top-Down-Ansicht betrachten. Während Kapitel 6 über “Good Style” eher einen Überblick über das Gesamtbild gibt, macht Kapitel 7 konkretere Vorschläge zu den einzelnen Merkmalen guten Stils. Das “Style Specifics”-Kapitel kann daher als Referenz aufgefasst werden, auf die man immer wieder zurückgreifen und nachschlagen kann.

Hausaufgaben

  1. Lest die Kapitel 10 “Algorithms” und 11 “Graphs, Figures, Tables” aus “Scientific Writing for Computer Science” zur Vorbereitung auf die nächste Sitzung.
  2. Lest den Text “Fighting for breath” aus “Tim Skerns “Writing Scientific English” (S. 50f) und untersucht, ob er den Kriterien guten wissenschaftlichen Stils entspricht.

[article image: youtube]

Anwendung Checkliste “Efficient Graph-Based Document Similarity”

  1. What phenomena or properties are being investigated? Why are they of interest?
    – Ähnlichkeiten zwischen Dokumenten sollen anhand eines effizienten Graphs erkannt werden, der auf Semantikuntersuchungen basiert
    – gängige Methoden operieren z.Bsp über Wortverteilung innerhalb des Textes
    – dabei werden Mehrdeutigkeit von Wörtern und Synonyme häufig zum Problem
    – außerdem sind Vergleiche zwischen verschiedenen Texten schwierig, z. Bsp. durch Verwendung unterschiedl. Vokabulars
  2.  Has the aim of the research been articulated? What are the specific hypotheses and research questions? Are these elements convincingly connected to each other?
    – gibt nicht wirklich Hypothesen
    – sie wollen zeigen, dass ihr Algorithmus:
    1. Vergleichsergebnis höhere Korrelation mit der menschlichen Vorstellung von Dokumentenähnlichkeit
    2. auch für kurze Dokumente anwendbar
    3. durch die Graph-Basirung effizient
  3. To what extent is the work innovative? Is this reflected in the claims?
    –  der Vergleich auf semantischer Ebene verbessert die gängigen Methoden –> zuverlässeriges Finden von Ähnlichkeiten
  4. What would disprove the hypothesis? Does it have any improbable consequences?
    – es werden keine negativen Aspekte im Paper benannt
    – wenn es nicht schneller wäre oder die Ergebnisse des Vergleichs von Dokumenten gleich oder schlechter ist, als bei bisherigen Verfahren
  5. What are the underlying assumptions? Are they sensible?
    – Texte sind vergleichbar anhand semantischer Zusammenhänge
  6. Has the work been critically questioned? Have you satisfied yourself that it is sound science?
    – ausführliche Modelbeschreibung bei den Ähnlichkeitsfunktionen
    – aber keine Einschränkungen oder kritische Fälle werden betrachtet
    –> eher nein
  7. What forms of evidence are to be used? If it is a model or a simulation, what demonstrates that the results have practical validity?
    – mathematisches Model als Grundlage der Ähnlichkeitsfunktionen
    – Experimente mit echten Datensätzen
  8. How is the evidence to be measured? Are the chosen methods of measurement objective, appropriate, and reasonable?
    – wird die Suchzeit-Kompkexität betrachtet –> sinnvoll, da ein schnelleres Verfahren als bisherige erreicht werden soll
    – Vergleich der Ergebnisse aus Experimenten –> ebenfalls sinnvoll, da sie bessere Suchergebnisse erzielen wollen
  9. What are the qualitative aims, and what makes the quantitative measures you have chosen appropriate to those aims?
    – Qualität: schneller und bessere Vergleichsergbnisse
  10. What compromises or simplifications are inherent in your choice of measure?
    – Nicht beantwortbar, da ich das Paper nicht geschrieben habe und damit nicht für Wahl verantwortlich war
  11. Will the outcomes be predictive?
  12. What is the argument that will link the evidence to the hypothesis?
    – Ergebnisse der Experiemente und der Laufzeitvergleich(?)
  13. To what extent will positive results persuasively confirm the hypothesis? Will negative results disprove it?
  14. What are the likely weaknesses of or limitations to your approach?
    – Es muss bei kurzen Sätzen mindestens eine Einheit gefunden werden mit der verknüpft werden kann