Springe zum Hauptinhalt
Universitätsbibliothek
Bibliometrie

Software

Hier finden Sie Kurzbeschreibungen zu nützlichen Werkzeugen für die Arbeit mit bibliometrischen (oder anderen) Daten. Der Schwerpunkt liegt auf freier Software.
Die Texte geben Antworten auf die Fragen: Was? (wesentliche Merkmale), Wie? (Funktionen und Anwendungsmöglichkeiten); Für wen? (Zielgruppen und notwendige Vorkenntnisse) und Wo? (Bezugsorte und nützliche Quellen).
Die Liste wird ständig erweitert.

Was?

Wem Tabellenkalkulation zu schwach, Programmieren nicht visuell genug und Datenbanken zu starr sind, der wird die Software OpenRefine für Zwecke der Datenaufbereitung und -bereinigung lieben. Ursprünglich unter dem Namen Google Refine aus dem Suchmaschinengiganten heraus entwickelt, wird die Software seit 2012 als Open Source-Projekt weitergeführt.
Für eine Desktopanwendung etwas ungewöhnlich ist die Nutzung eines Browsers (wir empfehlen Firefox oder Google Chrome) zur Ausführung der Anwendungsoberfläche. Da diese aber über einen integrierten Webserver gespeist wird, bleiben alle Daten sicher auf dem eigenen Rechner. Das Programm läuft nur unter Windows.

Wie?

Durch die Einteilung der Daten in Zeilen und Spalten gleicht OpenRefine optisch den bekannten Programmen der Tabellenkalkulation. Im Unterschied zu diesen kann die Software aber Operationen – etwa das Editieren von Zellinhalten, die Filterung und Clusterung von Zeilen – auf alle Zeilen einer Spalte anwenden. Transformationsausdrücke können in den Sprachen General Refine Expression Language (GREL) oder Jython unter Einbeziehung regulärer Ausdrücke verfasst werden. Im Unterschied zu Programmiereditoren und Datenbankmanagementsoftware bleiben die Daten bei allen Zwischenschritten der Transformation für den Anwender sichtbar.
Möglichkeiten der Datenanreicherung aus externen Quellen – besonders nützlich ist die Funktion zur Geocodierung von Adressdaten – komplettieren die Funktionspalette.

Für wen?

OpenRefine ist eine wertvolle Hilfe für alle, die in große, unaufgeräumte Datenmengen eintauchen wollen. Da keine deutschsprachigen Versionen und Beschreibungen verfügbar sind, erleichtern Grundkenntnisse in Englisch die Benutzung. Auch erste Erfahrungen in der Anwendung regulärer Ausdrücke erweitern die Anwendungsmöglichkeit. Sie sind aber keine Voraussetzung für die Nutzung, da für die meisten Anwendungsfälle fertige „Rezepte“ und Code-Lösungen (siehe Linkliste unten) zur Verfügung stehen.

Wo?

  • Github Repository: zentraler Anlaufpunkt mit aktueller Software-Version zum Download, Installationshinweisen, Dokumentation und einführenden Tipps & Code-Lösungen
  • RefinePro Knowledge Base: umfangreiche Auflistung von „Rezepten“ und Code-Fragmente
  • Tony Hirst's Blog: Suche nach den Stichwörtern „google refine“ oder “openrefine“ führt zu Lösungen für sehr spezielle Anwendungsfälle der Software

Was?

BiBExcel ist auf die speziellen Bedürfnisse der Aufbereitung und Transformation bibliometrischer Daten zugeschnitten. Die Software wurde vom schwedischen Bibliotheks- und Informationswissenschaftler Olle Persson an der Universität Umeå entwickelt. Für wissenschaftliche und akademische Zwecke darf BiBExcel frei genutzt werden. Das Programm läuft ausschließlich unter Windows.

Wie?

BibExcel schließt die Lücke zwischen bibliographischen Datenquellen (Web of Science, Scopus etc.) und Programmen zur Netzwerkanalyse und -visualisierung (Pajek, Gephi etc.). Datenbankexporte können mit wenigen Klicks in das programmeigene DIALOG-Format überführt werden. An den importierten Daten können einfache Operationen der Datenbereinigung z.B. Dublettenkontrolle, Wortstammextraktion (nur Englisch), durchgeführt werden.
Aus den bereinigten Daten lassen sich dann in einem mehrschrittigen Prozess verschiedene Netzwerke, etwa Co-Zitationsnetzwerke, Co-Autorennetzwerke, Co-Wortnetzwerke, oder Kreuzmatrizen extrahieren und normalisieren. Weitere Optionen zur Analyse der gebildeten Netzwerke sind kaum, Visualisierungsmöglichkeiten gar nicht vorhanden.

Für wen?

BibExcel ist für all jene empfehlenswert, die den Weg der Datentransformation von bibliographischen Datenbanken zu hoch entwickelten Analyse- und Grafiktools in Echtbilddarstellung vollziehen möchten. Dadurch entfällt die Notwendigkeit zum Schreiben von Codes zur Datenmanipulation. Allerdings ist die Datenaufbereitung in BibExcel mit zahlreichen Einzelschritten und Zwischenformaten etwas gewöhnungsbedürftig und bedarf einer beträchtlichen Einarbeitungszeit und -motivation. Wie bei den meisten der vorgestellten Werkzeuge sind grundlegende Englischkenntnisse dabei hilfreich/notwendig.

Wo?

Was?

Pajek, abgeleitet vom slowenischen Wort für Spinne, ist ein nur unter Windows laufendes Programm zur Analyse und Visualisierung sozialer Netzwerke. Die slowenischen Wissenschaftler Andrej Mrvar und Vladimir Batagelj starteten das Projekt im November 1996. Für nicht-kommerzielle Zwecke darf die Software frei verwendet werden.

Wie?

Die Stärke von Pajek liegt in der Analyse sehr großer Netzwerke, die mehr als eine Million Knoten enthalten können. Es lassen sich u.a. Cluster (Komponenten, Nachbarschaften usw.) eines Netzwerkes auffinden und extrahieren, Pfade zwischen Netzwerkknoten untersuchen und Netzwerkeigenschaften wie Dichte, Verbundenheit, Asymmetrie und Zentralität berechnen. Ein integriertes, aber in seinen Funktionen vergleichsweise begrenztes Visualisierungstool erlaubt die Darstellung von Netzwerken in zwei- oder dreidimensionaler Form.
Die Software ermöglicht den Datenexport in die Statistikprogramme R und SPSS sowie den Export von Grafiken in konventionelle Grafikprogramme (z.B. MS-Paint, GIMP) und andere Visualisierungsprogramme (z.B. VOSviewer).
Aus Sicht der Bibliometrie fehlt eine Funktion zum Import von Daten aus den gängigen bibliographischen Datenquellen (z.B. Web of Science und Scopus). Diese müssen über andere Programme (z.B. BibExcel) oder selbst programmierte Skripte in das Input-Format von Pajek (Dateiendung .net) überführt werden. Der Import-Umweg und die komplexen Analysefunktionen machen Pajek ausschließlich für die bibliometriebasierte Forschung, etwa zur Cluster- oder Pfadanalyse von Zitations- und Co-Autorennetzwerken, empfehlenswert.

Für wen?

Bevor Pajek effektiv genutzt werden kann, ist eine intensive Beschäftigung mit den Methoden der sozialen Netzwerkanalyse und -visualisierung unabdingbar. Gute Englischkenntnisse sind für das Verständnis der zumeist englischsprachigen Literatur zur Netzwerkanalyse und über Pajek wichtig. Eine deutschsprachige Version der Software wird nicht angeboten.

Wo?

Was?

Gephi ist eine leistungsstarke Open-Source-Software zur Visualisierung und Analyse sozialer Netzwerke. Als studentisches Projekt an der TU Compiègne im Jahr 2008 in Java geschrieben, wird die Weiterentwicklung der Software seit 2010 von einem französischen Non-Profit-Konsortium betreut und von der großen Anwendergemeinde unterstützt. Das Programm läuft unter Windows, Mac OS X und Linux.

Wie?

Gephi ist das Mittel der Wahl, wenn es um die dynamische und augenschmeichlerische Darstellung von Netzwerken mit bis zu 100.000 Knoten geht. Nach der algorithmengestützten Anordnung eines Netzwerkes im zweidimensionalen Raum können dessen Knoten frei mit der Maus verschoben, individuell mit Farb-, Form-und Größeneinstellungen formatiert oder in ihrer zeitlichen Entwicklung dargestellt werden.
Neben den Visualisierungsalgorithmen bietet die Software auch Clusteralgorithmen und einige Analysefunktionen zur Berechnung der wichtigsten Netzwerkeigenschaften wie Dichte, Verbundenheit oder Zentralität.
Beim Datenimport zeigt sich Gephi variabler als viele andere Werkzeuge der Netzwerkanalyse – akzeptiert werden u.a. CSV, GML, NET (Pajek-Format) und XSLX (nach Konvertierung mit zuschaltbarem Plugin). Neben den genannten Formaten lassen sich die fertigen Graphen als PDF- oder SVG-Dateien exportieren und mit Hilfe eines Plugins (SigmaJS) sogar interaktiv als Web-Anwendung zugänglich machen.
Die flexiblen und leistungsfähigen Eigenschaften machen die Software unter bibliometrischen Aspekten insbesondere für die explorative Darstellung umfangreicher Zitations- und Ko-Autorennetzwerke interessant.

Für wen?

Da es sich bei Gephi um eine auch in deutscher Sprache verfügbare Desktop-Anwendung handelt, sind die technischen und sprachlichen Einstiegsvoraussetzungen niedrig. Die Anwendung der gesamten Funktionsvielfalt des Programms erfordert aber Grundkenntnisse in sozialer Netzwerkanalyse sowie die Bereitschaft, sich intensiv in neue Software einzuarbeiten und in meist englischsprachigen Foren und Blogs nach konkreten Problemlösungen zu recherchieren. Doch dies lohnt sich: die Lernkurve ist steil und die Möglichkeiten vielzählig.

Wo?

Datenquellen

Im folgenden möchten wir Ihnen drei der wichtigsten Datenquellen für die bibliometrische Analyse vorstellen. Zu beachten ist hierbei natürlich die fachliche Ausrichtung, Zielgruppe und Intention der Datenquelle. Hinweise dazu finden Sie in der Einzelbeschreibung. Weitere Datenquellen die hier nicht aufgeführt wurden, sind: das DOAJ (Directory of Open Access Journals), fachspezifische Datenquellen, wie Chemical Abstracts, PubMed, PsycINFO, CSA Illumina, CiteSeer u.a. Wichtig ist natürlich welche Art von Analyse durchgeführt werden soll, beispielsweise sollten die Publikationen eines Wissenschaftlers möglichst vollständig in der ausgewählten Datenbank enthalten sein.

Scopus ist die größte der bibliometrischen Datenquellen, betrachtet man den Umfang (ca. 22.412 aktive Zeitschriften, 7.2 Mio Konferenzberichte, ca. 120.000 Monographien, 27 Mio Patente - Quelle: Scopus title list). Scopus bietet verschiedene Indikatoren an, unter anderem SCImago Journal Rank, IPP – Impact per Publication, SNIP – Source Normalized Impact per Paper, Zitationsanzahl, H-Index. Allerdings ist Scopus in der Tiefe noch unvollständig erschlossen, teilweise sind nur die letzten 5 Jahrgänge einer Zeitschrift verfügbar. Dennoch bietet Scopus besonders für die Naturwissenschaften (die Geistes- und Sozialwissenschaften sind stark unterrepräsentiert) viele nützliche Funktionen und große Datenmengen die für die bibliometrische Analyse genutzt werden können. Das Datenformat (CSV) kann direkt in Software-Programme wie Gephi importiert werden. Da Scopus ein teures kommerzielles Produkt ist, kann kein freier Zugang garantiert werden. Die Universitätsbibliothek Chemnitz hat die Datenbank lizenziert, der Zugriff für Hochschulangehörige ist frei.

Google Scholar bietet ein breites Spektrum an verzeichneten Dokumenten, diese Quelle für bibliometrische Analysen ist nicht so fachspezifisch wie Scopus oder Web of Science. Es sind sowohl Geistes- als auch naturwissenschaftliche und sozialwissenschaftliche Publikationen verzeichnet. Google Scholar ist frei zugänglich und bietet Zitationsmetriken für Zeitschriften (h5-Index, h5-Meridian) und Artikel (Zitationsanzahl) sowie die Möglichkeit mittels Autorenprofil die eigenen Kennzahlen zu ermitteln und zu veröffentlichen. Einige Defizite von Google Scholar sind die umständliche manuelle Fehlerbereinigung sowie die mangelnde Transparenz der Daten und ihrer Herkunft.

Web of Science ist die traditionelle bibliometrische Datenquelle schlechthin. WoS bietet eine umfangreiche Tiefenerschließung, da es eine der ersten Datenbanken auf dem Gebiet der Zitationsmetriken war. Allerdings ist Web of Science nicht so umfangreich wie Scopus (ca. 13.877 Zeitschriften, siehe WoS Journal list). Folgende Indizes sind analysierbar: Zitationsanzahl, Zitationsrate, H-Index, Journal Impact Factor. Auch diese Datenquelle ist besonders für die Naturwissenschaften von Bedeutung, geisteswissenschaftliche Publikationen sind eher unterrepräsentiert. Die vielen möglichen Datenformate von Web of Science erleichtern die Weiterverarbeitung der Daten enorm. Auch Web of Science ist ein kommerzielles Produkt, daher kann kein freier Zugang garantiert werden. Die Universitätsbibliothek Chemnitz hat die Datenbank lizenziert, der Zugriff für Hochschulangehörige ist frei.