Review – Linked Data

Zusammenfassung:

Linked Data ist ein alternativer Ansatz, um Daten in einem Netzwerk z.B. dem Internet zu verlinken. Solch ein Netzwerk wird Semantic Web genannt. Statt Links und Daten zur Verfügung zu stellen, wird ebenfalls seine Semantik erfasst. Das bedeutet, dass beispielsweise Suchanfragen weniger fehleranfällig werden, beispielsweise bei Worten, die in verschiedenen Themenbereichen verschiedene Bedeutungen haben (z.B. Computermaus und Maus als Tier). Linked Data wird als die Zukunft für das Web angesehen, konnte sich bisher aber noch nicht durchsetzen. Neben den positiven Aspekten von Linked Data, gibt es auch bisher ungelöste negative Aspekte. So ist es zwar jedem möglich Daten einzuspeißen, aber durch fehlende Kontrollinstanzen können redundante und widersprüchliche Informationen in das Semantic Web gelangen.

Positiv:

Im Allgemeinen sehr gute Struktur, Lesbarkeit, Sprache, Grammatik.

  • Sehr gute Lesbarkeit / Lesefluss
    • Ausbalancierte Abschnitte
    • Gut gegliederte Kapitel
    • Sinnvolle Zeilenumbrüche und Leerzeilen
    • Man wird nie von einer Wall of Text erschlagen
  • Beispiele und Veranschaulichungen:
    • Gute Beispiele, die zur Veranschaulichung eines Konzeptes dienen:
      • z.B. Die erläuterung von Kontext in Kombination mit Suchanfragen (In der Einleitung mit „Maus“)
    • Der Abschnitt von „Linked Data-Browser“ ist sehr gelungen:
      • Durch den zweiten Teil (mit dem Beispiel) kann man sich eine gute Vorstellung über das Semantic Web und seineFunktionsweise zu machen
    • Guter Bezug zu bereits vorhandener Technologie z.B. dass Google teilweise (schon) solche Technologie nutzt.
  • Aufzählungen von Anwendungen / Webseiten und deren Nutzen:
    • Weckt Interesse diese mal benutzen (zu können) vor allem Linked Data-Browser und Linked Data-Suchmaschinen, mir war vorher nicht klar, dass es sowas gibt.
  • Quellen
    • Recht viele Quellen für die Anzahl der Seiten. Das vermittelt den Eindruck, dass der Author, sich mit dem Thema tiefgehend auseinandergesetzt hat.

Negativ:

Im Allgemeinen nur sehr kleine / konkrete / spezifische Fehler. Zwar sieht die Liste lang aus, dafür sind die meisten Punkte davon recht klein / einfach zu beheben.

  • Falsche Zitiertechnik (Referenz gehört zum Satz und Leerzeichen vor einer Referenz) an fast jeder Stelle:
    • Ich bin ein fehlerhaftes Beispiel.[1]
    • Ich bin ein korrektes Beispiel [1], und ich ein weiteres [2].
  • Abkürzungen
    • Im Paper werden viele Abkürzungen benutzt, viele von ihnen werden nicht erklärt, manche erst zu spät:
      • z.B. wurde W3C nie erläutert
      • URI wird erklärt / ausgeschrieben, aber erst nachdem es schon einige male verwendet wurde
  • Referenzen:
    • Nur eine(!) Nicht-Internetquelle, eventuell mehr (Fach)literatur nutzen.
    • Manchmal fehlende Titel / Namen der Internetquellen, nur der Link wurde angegeben z.B.[10], [11] und [15].
  • Deutsch / Englisch in der Struktur:
    • „Abstract“ und „Short Overview“ aber „Einleitung“,  „Prinzipien“ etc.
  • Komische Struktur bei Kapitel 3:
    • „3 Anwendungen“ ohne Text, dann direkt „3.1 Generische Anwendungen“, aber es gibt kein 3.2 mehr. Daher: Warum diese Struktur? Warum nicht direkt z.B.: „3 Generische Anwendungen“?
    • Außerdem meist unschön nach Kapitelanfang oder Abschnittsanfang keinen Text zu schreiben.
  • Überschrift von Kapitel 1:
    • Eventuell „Was ist Linked Data?“ aus der Überschrift nehmen. In der Einleitung zum Thema Linked Data, sollte klar sein, dass dieser Begriff dort erklärt wird. Außerdem werden auch weitere Begriffe und Konzepte erläutert als Linked Data.
  • Kleinere Inkonsistenzen / Rechtschreibfehler:
    • Im Abstract: „Google“, „“Yahoo“, „Facebook“ später in einem der letzten Sätze: Yahoo, Google ohne Anführungszeichen
      • Entweder immer mit Anführungszeichen oder immer ohne oder beispielsweise kursiv
    • Im Abstract „Linked Open Data“, später im Stand der Technik: „Linked Open data“
    • Kurz vor Ende „…in der Entwicklung unsres Webs.“
  • Komische Sätze:
    • Klingt nach einer doppelten Erklärung, der zweite Satz bringt keine klarheit sondern beschreibt fast dasselbe (3. Satz in der Einleitung): „Um zu verstehen was Linked Data ist, muss man sich zuerst einmal mit dem semantischen Web auseinandersetzen. Dies basiert auf der Idee, das Web um das Model des semantischen Netzes zu erweitern.“
    • Nach den 4 Punkten bei Prinzipien (eventuell Copy & Paste Fehler?):
      • „… HTML (Hypertext Markup Language)[6] als universaler Zugangsmechanismus und HTML (Hypertext Markup Language) als das gewöhnliche Inhaltsformat[7].“
  • Zahlen:
    • Kleine Zahlen ausschreiben, statt das Zeichen zu verwenden (Direkt am Anfang von „2 Prinzipien“:  „Tim Berners-Lee stelte 4 grundlegende ….“)

Urteil:

Minor Revision.

Das Paper gibt einen guten Einblick in die Thematik, ich kann mir nun etwas unter Semantic Web und Linked Data vorstellen. Durch die klare Struktur, die gute Rechtschreibung und Grammatik, die verwendete Beispiele und dem guten Schreibstil lies sich das Paper sehr gut / fließend lesen. Viele Abkürzungen und deren Bedeutung sind mir jedoch noch unklar, für einen Experten stellt dies vermutlich kein Problem dar, aber für neue Leser.

Hausaufgabe Checkliste – Kai

Regarding hypotheses and questions

  • What phenomena or properties are being investigated? Why are they of interest?
    • Graph-based document models are often slow, but are can give promising results. Paper invesitgates means to improve performance. They are of intereset since relatedness of documents are used in many applications  (e.g. document retrieval and recommendation).
  • Has the aim of the research been articulated? What are the specific hypotheses and
    research questions? Are these elements convincingly connected to each other?

    • Not really hypotheses / research questions.
    • Developing a faster algorithm compared to other graph-traversal based approaches.
    • Specific claims:

      • higher correlation with human notions of document similarity
      • holds for short documents with few annotations
      • document similarity is computed (more) efficiently
  • To what extent is the work innovative? Is this reflected in the claims?
    • They use a different/new  approach for efficient knowlegde-graph based semantic similarity (the preprocessing step called Semantic Document Expansion??)
  • What would disprove the hypothesis? Does it have any improbable consequences?
    • Not really hypothesis, rather their claims: It would be disproved if the results from the experiments would be slower / worse than the other approaches.
  • What are the underlying assumptions? Are they sensible?
  • Has the work been critically questioned? Have you satisfied yourself that it is
    sound science?

Regarding evidence and measurement

  • What forms of evidence are to be used? If it is a model or a simulation, what
    demonstrates that the results have practical validity?

    • Running a simulation with standard benchmark (enables comparison with other work).
  • How is the evidence to be measured? Are the chosen methods of measurement
    objective, appropriate, and reasonable?

    • Is measured by results from experiments. Its objective, fitting, reasonable.
  • What are the qualitative aims, and what makes the quantitative measures you have
    chosen appropriate to those aims?

    • Qualtitative aims: approach is faster / better than similar approaches
    • Quantitative measures: correlation, time, ranking in comparison to other approaches
  • What compromises or simplifications are inherent in your choice of measure?
    • I don’t know. Maybe that it uses a standard benchmark
  • Will the outcomes be predictive?
  • What is the argument that will link the evidence to the hypothesis?
    • I think plain, objective data is enough as an argument. So no real argument is given.
  • To what extent will positive results persuasively confirm the hypothesis? Will
    negative results disprove it?

    • Positive results ARE the proof, that confirms the „hypothesis“ (the claim that its better), thus negative results would easily disprove them.
  • What are the likely weaknesses of or limitations to your approach?
    • Works only for short sentences if an entity can be found to be linked with (maybe its not that improbable that sentences don’t have entities, I don’t know)

Abstract: Swarm Intelligence

Häufig werden neue Lösungsansätze für Probleme in der Informatik durch reale Phänomene inspiriert. Die Swarm Intelligence ist ein solcher Lösungsansatz. Sie ist dem Gebiet der künstlichen Intelligenz (AI)  zuzuordnen und ist von dem kollektiven Verhalten sozialer Tiere, allen voran den Insekten,  inspiriert.

Ameisen, Termieten, Wespen, Bienen, Vögel und Fische sind Beispiele solcher Tiere. Als Gruppe bilden die einzelnen Individuen ein emergentes System. Obgleich die Individuen mit nur begrenztem Wissen und einer recht niedrigen Intelligenz ihre Aufgaben verrichten, scheint das System als solches komplex, intelligent und problemlösend zu sein. So sind beispielsweise  Ameisen in der Lage gemeinsam komplexe Nester zu bauen, obgleich keine der Ameisen das Wissen um einen gemeinsamen Plan des Bauwerkes besitzt. Sie arbeiten selbstorganisierend und dezentralisiert.

In der Informatik werden die Individuen solcher Tiere als sogenannte Agenten modeliert. Jeder Agent hat dabei recht simple Aufgaben und weiß von anderen Agenten in der Nähe. Mit diesem simplen Modell lassen sich sehr komplexe Probleme lösen. Häufige Anwendungsgebiete finden sich in der Robotik und Optimierung. Bei der Optimierung ist ein solches Swarm Intelligence System beispielsweise äußerst robust und leidet äußerst selten unter dem Problem, nur ein lokales Extrem zu finden.

Nachdem das vorliegende Paper die grundlegenden Aspekte von Swarm Intelligence erläutert hat, folgen Anwendungsgebiete und Beispiele in denen sie genutzt wird. Anschließend werden Probleme und die Einschränkungen von Swarm Intelligence näher gebracht. Das Paper schließt dann mit einem Ausblick auf die Entwicklung von Swarm Intelligence ab.

 

5 Publikationen zu Swarm Intelligence

    1. Swarm Intelligence: Introduction and Applications
      • Buch
      • Blum, Christian. and Merkle, D.
      • 2008
      • Springer Berlin Heidelberg
      • Ist ein Buch, welches über bekannten Verlag verlegt wird: vermutlich hohe Qualität.
    2.  Fundamentals of Computational Swarm Intelligence
      • Buch
      • Andries Petrus Engelbrecht
      • 2006
      • John Wiley & Sons
      • Wurde über 1500 mal zitiert. Als Buch vermutlich gute Qualität. Der Author hat viele Publikationen in gleichem oder ähnlichem Themengebiet, darunter viele aktuelle (2015 und 2016).
    3. Particle Swarm Optimazition: Developments, Applications and Resources
      • Konferenz Publikation
      • Russel.C. Eberhart, Yuhui Shi2001
      • IEEE
      • Über 4000 mal zitiert. Ist eher alt, aber daher vermutlich gut / fundamental. Yuhui wurde sehr konstant jährlich zitiert und seit 2011 22001 mal! Author hat viele ähnliche Publikationen, darunter auch Bücher.
    4. Swarm Intelligence
      • Buch
      • James Kennedy, James F Kennedy, Russell C Eberhart, Yuhui Shi (selbe Authoren wie oben unter anderem)
      • 2001
      • Morgan Kaufmann
      • Über 7000 mal zitiert. Recht alt, aber scheinbar immer noch aktuell. Selbe Autoren wie oben.
    5. Swarm Intelligence: From Nature to Artificial Systems
      • Buch
      • Eric Bonabeau, Marco Dorigo, Gui Theraulaz
      • 1999
      • Oxford University Press
      • Ebenfalls recht alt, aber sehr häufig zitiert.  Scheinbar ebenfalls ein „Klassiker“. Als Buch vermutlich hohe Qualität.

 

Allgemein scheinen die meisten Publikationen recht alt zu sein, daher vermutlich bereits ein gut erforschtes Gebiet. Aktuelle Publikationen sind sehr spezifisch auf bestimmte Probleme zugeschnitten.

 

Summary: Interstellar Travel

In Star Trek a physicist called Zefram Cochrane invented the warp drive engine, a technology that enabled faster-than-light propulsion for space travelling.

Even though this is science-fiction, it may become real.

Harold „Sonny“ White and his research team at NASA’s Johnson space Center in Hoston are researching on this very invention. Therefore they assembeled an experiment to create small distorions in spacetime. If this succeeds, it may lead to reasearch on a system that could create bubbles of warped spacetime around a spacecraft. These distortions would enable the spacecraft to sidestep the laws of physics, which prohibit faster-than-light travel. However, researching a very theoretical technology, NASA didn’t provide much money for this research group.

Many scientists, engineers and amateur space enthusiats, that believe in this dream, held conferences and founded organisations that seek to lay groundwork for an unmanned interstellar mission that could be launched at the end of the century. Also, astronomers have detected many Earthlike planets relatively close, of which some of them seem to provide an habitable atmosphere. These planets seem like a perfect fit for an interstellar exploration travel.

However considering the current technology, using Voyager 1 as a benchmark, it would take at least 70,000 years to reach those planets. This fact calls out for a major breakthrough in spacecraft propulsion.

A different, less hypothetical approach, than using a warp-drive engine, is fusion power. The energy in fusion power is generated by shooting atomic nuclei together. By using this resulting energy, that was also used for the hydrogen bomb, in a controlled environment, it may be used to accelerate a spacecraft a thousand times faster than Voyager 1. However that technology isn’t ready yet either and needs more research.

Other problems arise aswell.

Microsopic interstellar dust can cause high damage to the spacecraft when hit at high velocities. Therefore faster spacecraft need more protection, that increase the weight of the spacecraft, resulting in a higher need for fuel to accelerate it. And when reaching its destination a spacecraft needs to decelerate itself in order to land on the planet. So it would need an even heavier load of fuel.

The problems seem endless and the difficulty of an intersteller flight may explain the Fermi paradox, which asks the question: „if intelligent life is common in the universe, where are all the aliens?“. The answer might be, that it’s just too hard to get around in space.

Despite all these problems, the wish to explore the space is still very present, resulting in serious conferences about this topic. But with the NASA even struggling to fund all its feasible priorities, planning an interstallar mission is still just a dream.

But people like Jill Tarter, who is hunting for radio signals from extrateresstrial civilizations, argues that the future of mankind lies within interstallar exploring and travel, because we might just extinct by a nuclear war, a pandemic or an asteroid impact.

Punctuation Game – Kai

Punctuation Game – Put in the missing punctuation marks (, ; -)

  • We live in the era of Big Data, with storage and transmission capacity measured not just in terabytes but in petabytes (where peta- denotes a quadrillion or a thousand trillion).
  • Data collection is constant and even insidious with every click and every “like” stored somewhere for something.
  • This book reminds us that data is anything but “raw”, that we shouldn’t think of data as a natural resource, but as a cultural one, that needs to be generated, protected, and interpreted.
  • The book’s essays describe eight episodes in the history of data, from the predigital to the digital.
  • Together, they address such issues as the ways, that different kinds of data and different domains of inquiry are mutually defining how data are variously “cooked” in the processes of their collection and use and conflicts over what can or can’t be “reduced” to data.
  • Contributors discuss the intellectual history of data as a concept, describe early financial modeling, and some unusual sources for astronomical data discover, the prehistory of the database in newspaper clippings, and index cards and consider contemporary “dataveillance” of our online habits, as well as the complexity of scientific data curation.

 

  • During succession, ecosystem development occurs but in the long term absence of catastrophic disturbance, a decline phase eventually follows.
  • We studied six long term chronosequences in Australia, Sweden, Alaska, Hawaii, and New Zealand for each, the decline phase was associated with a reduction in tree basal area and an increase in the substrate nitrogen to phosphorus ratio indicating increasing phosphorus limitation over time.
  • These changes were often associated with reductions in litter decomposition rates, phosphorus release from litter and biomass, and activity of decomposer microbes.
  • Our findings suggest, that the maximal biomass phase reached during succession cannot be maintained in the long term absence of major disturbance and that similar patterns of decline occur in forested ecosystems, spanning the tropical temperate and boreal zones.

Hausaufgabe 3

Ambiguity

Each of the following excerpts has an ambiguity, which is a word or phrase with more than one meaning. While poets make their living off ambiguities, engineers and scientists are often sued for ambiguities. For each excerpt, identify the source of the ambiguity: (1) improper syntax (word order), (2) missing comma, (3) unclear pronoun reference, or (4) grouping of conflicting words.

 

At this time, the Department of Energy is only considering Yucca Mountain as a possible storage site for nuclear waste. Other possible sites are excluded from discussion.

(4) There is a conflict between „.. is ONLY considering Yucca Mountain… “ and „OTHER possible sites…“. So is it the only consideration or are there others aswell?


If the airplane waits too long to take off the de-ice fluid can dissipate.

(2) It can be read as „…to take off the de-ice fluid…“ and „…to take off, the de-ice fluid…“. So its a missing comma .


The Lunar Module was only designed to hold two astronauts and to have a life time of forty-five hours.

(3) Sounds like the Lunar Module was ONLY designed for holding two people and having a limited lifetime (no other use of the Lunar Module, just holding two people). But it was designed to hold ONLY two people and to have ONLY a limited lifetime.


The beams are positioned with respect to the chopper blade so that while one beam passes the output of the opposite beam is completely blocked.

(2) That was a hard one: Missing comma after „passes“.


The Hindenburg was filled with hydrogen because it is lighter than air…The report claimed that a hull wire could have ruptured a gas cell if it fractured.

(3) If the gas cell fractured or if the hull wire fractured?


Avoiding complicated multi-ordered calculations, the equations come from fundamental definitions of mass flow, work, and efficiency.

(1?) What is avoiding the calculations? Reads like „it is avoiding“, „we are avoiding“ etc. but then the second sentence feels wrong.


To provide spill protection, all tanks were equipped with basins and automatic shutoff devices or overfill alarms or ball float valves.

(?) The concatenation of the mentioned tools are unclear: Did all tanks  have basins and automatic shutoff devices and then any of the following tools? Or do they all one ore more of all tools?


Being the first step in introducing CFD, Jones had to set up conservative assumptions.

(1) Reads like: „Jones was the first step“


As with any system errors occur in localization. („system-error“)

(2) As with any system, errors occur in localization.


Having a model would help designers predict the effects of engine operation over all speeds.

(?)

Kais Hausaufgaben (2)


Aufgabe 1:
Finde zu folgenden zwei Abstracts einen möglichst passenden Titel!


Erster Text:

Mining high utility itemsets from a transactional database refers to the discovery of itemsets with high utility like profits. Although a number of relevant algorithms have been proposed in recent years, they incur the problem of producing a large number of candidate itemsets for high utility itemsets. Such a large number of candidate itemsets degrades the mining performance in terms of execution time and space requirement. The situation may become worse when the database contains lots of long transactions or long high utility itemsets. In this paper, we propose two algorithms, namely utility pattern growth (UP-Growth) and UP-Growth+, for mining high utility itemsets with a set of effective strategies for pruning candidate itemsets. The information of high utility itemsets is maintained in a tree-based data structure named utility pattern tree (UP-Tree) such that candidate itemsets can be generated efficiently with only two scans of database. The performance of UP-Growth and UP-Growth+ is compared with the state-of-the-art algorithms on many types of both real and synthetic data sets. Experimental results show that the proposed algorithms, especially UP-Growth+, not only reduce the number of candidates effectively but also outperform other algorithms substantially in terms of runtime, especially when databases contain lots of long transactions.

Zusammenfassung:

Letztendlich geht es darum, den Vorgang zu beschleunigen, „high utility itemset“ zu finden, hierfür werden neue Algorithmen entwickelt (UP-Growth und UP-Growth+).

Titelvorschläge:

  1. Pruning  the number of high utility itemset candidates (in a transactional database)
  2. Reducing high utility itemset candidates with the use of UP-Growth and UP-Growth+ (in a transactional database)
  3. Using UP-Growth and UP-Growth+ to improve the performance of finding high utility itemset candidates (in a transactional database)

Zweiter Text:

The essence and value of Linked Data lies in the ability of humans and machines to query, access and reason upon highly structured and formalised data. Ontology structures provide an unambiguous description of the structure and content of data. While a multitude of software applications and visualization systems have been developed over the past years for Linked Data, there is still a significant gap that exists between applications that consume Linked Data and interfaces that have been designed with significant focus on aesthetics. Though the importance of aesthetics in affecting the usability, effectiveness and acceptability of user interfaces have long been recognised, little or no explicit attention has been paid to the aesthetics of Linked Data applications. In this paper, we introduce a formalised approach to developing aesthetically pleasing semantic web interfaces by following aesthetic principles and guidelines identified from literature. We apply such principles to design and develop a generic approach of using visualizations to support exploration of Linked Data, in an interface that is pleasing to users. This provides users with means to browse ontology structures, enriched with statistics of the underlying data, facilitating exploratory activities and enabling visual query for highly precise information needs. We evaluated our approach in three ways: an initial objective evaluation comparing our approach with other well-known interfaces for the semantic web and two user evaluations with semantic web researchers.

Zusammenfassung:

Linked Data wird oft schlecht visualisiert, das Paper liefert formale Ansätze, um ästethische Interfaces zu schreiben, die es ermöglichen Linked Data zu explorieren.

Titelvorschläge:

  1. Generic approaches to create visual pleasing interfaces for Linked Data
  2. Creating a visual interface for exploring Linked Data