Wikidata je volně přístupná databáze znalostí, kterou mohou číst a upravovat jak lidé, tak stroje. Je to pouze jeden z wikiprojektů provozovaných a spravovaných nadací Wikimedia, neziskovou organizací v oblasti svobodného obsahu, nejspíše nejlépe známou díky Wikipedii. Každý z projektů nadace Wikimedia má své vlastní zaměření - například Wikipedie je zaměřena na encyklopedický obsah, Wikimedia Commons podporuje obrazový a jiný mediální obsah a Wikislovník nabízí lexikografické informace o slovech, definice a synonyma. Wikidata se zaměřují na strukturovaná data.

Tato stránka je určena k tomu, aby poskytla přehled o strukturovaných datech. Pokud už víte, co jsou to strukturovaná data, ale chcete se dozvědět více o tom, jaký je jejich účel na Wikidatech, jak přistupovat k datům, nebo jak přispět svými vlastními daty, pokračujte na oddíl o propojování dat.

Jak porozumět Wikidatům

Pojem strukturovaná data odkazuje na data, která byla uspořádána a jsou uložena určitým definovaným způsobem, často s cílem nějakým způsobem zakódovat daný význam a přitom zachovat vztahy mezi jednotlivými datovými položkami uvnitř množiny dat.

Co jsou to vlastně data? A proč byste se měli zajímat zrovna o strukturovaná data?

Definice dat

Velká data, experimentální data, otevřená data, metadata – s některými z těchto názvů, nebo se všemi, jste se možná již setkali.

Každý výraz znamená něco trochu jiného, ale všechny jsou postaveny na všeobecném chápání dat a jejich potenciálu pro popis a zlepšení našeho chápání okolního světa.

Data, tedy údaje, mohou být chápány jako původce informací, protože z nich lze získat informace.

To proto, ze kdyz esencialne jsou data jednoduchy set "hodnot" "veci". Tyto hodnoty mohou byt ciselne nebo kvantitativni jako mereni nebo mnozstvi. Mohou ale byt take kvalitativni jako popis nebo srovnani. Na priklad, muzeme rict ze 8,848m ( 29.029 st.) jsou data hodnoty o vysce Mount Everest a ze "cervena" je hodnota dat barvy auta.

Jak jiz drive zmineno, informace nejsou to same jako data naopak jsou produkt kolekce a analyzy dat. napriklad, "8,848" (data) je celkem bezvyznamne cislo samo o sobe i kdyz vime ze se jedna o vysku hory; muzeme rict pouze ze "Mount Everest je nejvyssi hora na svete s 8.848m" (Informace) pokud si jsme vedomi standartnich rozmeru o vysce a az tehdy kdyz vime vysku vsech ostatnich hor, a s jistotou urcime fakta az kdyz jsou data strukturovany- k teto myslence se vratime pozdej.

Kde jsou data?

Data jsou všude kolem nás. Existuje spousta typu zdrojů dat, včetně finančních, biologických a sociálních dat. I tato stránka má data! Například celkový počet slov, datumy, kdy byla založena, naposledy upravena, téma a podstatu objektu, počet zobrazení stránky a jazyky, ve kterých je obsah přístupný.

Každopádně, zatímco vše je potenciálním zdrojem dat, data, která nejsou zaznamenána a organizována, ani v podstatě nemusí existovat. Bez vůdčí struktury data vypadají bezvýznamně a neposkytují žádné důležité informace.

Organizováním máme na mysli kategorizování stanardním a jednoznačným způsobem. Organizovaná a kategorizovaná data jsou tím, na co odkazujeme, když mluvíme o strukturovaných datech.

Wikidata nabízejí vstup v podobě formuláře pro přidávání dat k položkám.

Kde je struktura?

Na webu vládne struktura. Většina webových stránek je vytvořena pomocí HTML, značkovacího jazyka, který poskytuje základní kostru, strukturu webové stránky.

Značkovaci jazyky se také používají k označení a popisování obsahu stránek, aby je vyhledávací systémy, boti a aplikace jako RSS feed mohly jednoduše zpracovat a „pochopit“. Například <title> stroji řekne, jaké jméno daná webová stránka má.

Instead of supporting the structure and common elements of a web page, Wikidata provides structure for all the information stored in Wikipedia, and on the other Wikimedia projects. Wikidata is based on the Mediawiki software as is any other Wikimedia project, extended by Wikibase, the software which powers Wikidata and is designed to manage large amounts of structured data. Structure is not directly added to the content of Wikipedia or other Wikimedia site pages, as in tables or lists, nor is any knowledge of markup languages, data schemas, object notation, or other special syntax required by Wikidata users; instead, data is added to and edited in Wikidata through user-friendly input forms.

Všechna data uložená na Wikidatech mohou být využita ke generování různých automaticky vytvářených a aktuálních seznamů, tabulek nebo jiných strukturovaných položek na kterémkoli z projektů Wikimedia či kdekoli jinde.

Tabulka 1
Data Hor
Hory Vlastnost Hodnota
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Strukturování dat

For an example on the importance of structure, let's look at Table 1. In this table we can see data for the four highest mountains on Earth. If we would like to know a particular piece of information, such as the height of the second highest mountain in the world, we should be able to look at the provided data and find out the correct value. However, only three of the four mountains have their data categorized as a height value, and only two of those three mountains have values in metres. While we know that height and hauteur (French for height) can be understood as equal to each other, and how to convert metres to feet or vice versa, a machine, such as a bot or a computer program may not.

It would be much easier for both humans and machines to process the information and answer the original question about the second highest mountain when all underlying data is recorded in a similar way even if the presentation differs.

Modelování dat

Collections of structured data, like Wikidata, are organized according to a data model. Data models are machine-readable, meaning they can be understood by a computer. While computers are powerful, they are often not as smart as us when it comes to simple reasoning. For instance, in the example above, a machine would not be able to know that height and hauteur are the same unless they were explicitly told somehow that was the case.

Tabulka 2
Data hor
Hora Vlastnost Hodnota
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia

Data models vary based on the analysis needs, scope and conceptual framework of the dataset, and the technical requirements of a system. However, all data models typically will specify what kind of data can be supported by a system and what relationships between values can be understood and represented. For example, a data model could specify that height and hauteur be mapped to each other so that both terms represent one concept, or that measurements in feet be automatically converted into metres. The Wikidata data model shapes the way that data can be edited and added to the system by users. It is also a work in progress, with new data types being added to the model over time.

The data model also essentially translates human natural language patterns into something that can be processed by machines. For example, in English we might say:

"Mount Everest is the highest mountain in the world"

This is also the raw, unstructured format of content currently on Wikipedia and all other Wikimedia sites.

Na Wikidata, reprezentuje toto statement, jenz se sklada z paru vlastnost-hodnota o predmetu, v tomto pripade Zeme :Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Wikidata mají kromě toho také obsahovat výrok o položce Mount Everest (udávající, že jde o horu):

Mount Everest (Q513) (položka)instance of (P31) (vlastnost)mountain (Q8502) (hodnota)

Note that because other items can be used as the values for statements, and all items have their own unique page on Wikidata, this means that all items in the system can be linked together through a series of statements. Because Wikidata uses a machine-readable format, this interlinking of data allows new relationships and connections to be discovered and processed by machines. For example, in Table 2 we see new data for our mountains, this time about their geographical location by continent but nothing about their heights. Assuming this continent data was linked to the mountain height data, we would feel more confident making predictions or drawing certain conclusions about it, like saying that Asia is home to the world's highest mountains.

Propojování dat

Mimo to ze je kolekci strukturovanych dat. Wikidata taky podporuje "propojena data". Propojena data odkazuje k uziti publikace strukturovanych dat tak aby mohly byt dale propojovany.

For Wikidata this means that volunteer-contributed data can also be linked to other datasets, databases, and data sources from all around the web and from diverse initiatives outside of the Wikimedia family. For example, Wikidata currently allows interlinking with datasets and databases as diverse as Google Books, Canmore (one of the Historic Environment Scotland databases), the Vatican Library, OmegaWiki, and MusicBrainz.

příklad jednoduchého výroku skládajícího se z jednoho páru vlastnost-hodnota
priklad komplikovanejsiho vyroku skladajiciho se z paru vlastnost-hodnota, kvalifikatoru a reference

Sledovanim principu a pouziti spojenych dat, jsou Wikidata take schopne podporovat jine projekty a byt v nich vyuzit.

Principy propojených dat

Wikidata puziva unikatnich identifikatoru, nebo uniform resource identifiers (URIs), for all its items as per linked data standards.

While Wikidata uses a unique data model, its content can be exported in RDF, a widely used and standard format for linked data. In Wikidata terms, a statement is composed of an item and a property-value pair. For those familiar with linked data concepts, an item can be viewed as the subject part of a triplet; the property represents a triplet's predicate; and a value is used to express the object of a triplet.

However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".

Přidávání dat

Pokud mate sety dat kterymi chcete prispet na Wikidata, prosim jdete na: Wikidata:Dataset Imports.

Přístup k datům

The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.

See Data access for details about the different ways to programmatically access Wikidata's data.

