OpenRefine je open-source aplikace pro čištění a transformaci dat do jiných formátů, tato činnost se označuje jako data wrangling.[1] Podobně jako tabulkové procesory dokáže zpracovávat formáty jako CSV, ale chová se spíše jako databáze.

Data jsou uložena v buňkách organizovaných do řádků a sloupců, podobně jako v tabulkách relačních databází. Jednotlivé projekty v OpenRefine se skládají z jedné tabulky, jejíž řádky lze filtrovat pomocí kritérií definovaných fasetami.

Využití

  • Čištění nepřehledných dat,[2] např. textový soubor s částečně strukturovanými daty lze převést na plně strukturovaná data
  • Transformace dat, převod hodnot do jiných formátů
  • Parsování dat z webových stránek[3]
  • Import a úprava dat ve Wikidatech[4]

Podporované formáty

Data je možno importovat z formátů:

  • CSV, TSV
  • Textový soubor s libovolným separátorem, příp. sloupci oddělenými konstantním počtem mezer
  • XML
  • RDF
  • JSON
  • Tabulky Google

Data je možné exportovat do formátů:

Odkazy

Reference

V tomto článku byl použit překlad textu z článku OpenRefine na anglické Wikipedii.

  1. OpenRefine. GitHub [online]. [cit. 2021-11-28]. Dostupné online. (anglicky)
  2. Google Refine 2.0 - Introduction (1 of 3) (video version 2). [s.l.]: [s.n.] Dostupné online.
  3. StrippingHTML · OpenRefine/OpenRefine Wiki. GitHub [online]. [cit. 2021-11-28]. Dostupné online. (anglicky)
  4. Reconciling | OpenRefine. docs.openrefine.org [online]. [cit. 2021-11-28]. Dostupné online. (anglicky)

Externí odkazy

  • Obrázky, zvuky či videa k tématu OpenRefine na Wikimedia Commons