Linguistic Linked Open Data

DigIko

Digital Icons 20+ kao TEI korpus anotiran imenovanim entitetima i povezan sa Wikidata bazom, objavljen u NIF 2.1 formatu za interoperabilnu upotrebu u LLOD okruženju.

Dataset sadrži segmente teksta, anotirane NER pojave, tipove entiteta i veze ka Wikidata QID identifikatorima, uz pripremljene VoID/DCAT metapodatke i SPARQL primere za istraživačku i infrastrukturnu upotrebu.

Opis resursa

DigIko predstavlja LLOD izdanje TEI korpusa Digitalne ikone 20+. Svaki tei:seg izvorno anotiranog TEI dokumenta transformisan je u nif:Context, a svaka pojava entiteta (tei:ner) u nif:Phrase sa pozicionim indeksima, tekstualnim sidrom, klasom i, kada postoji, vezom ka odgovarajućem Wikidata entitetu.

Ovakva reprezentacija omogućava jednostavnu pretragu, povezivanje sa drugim LLOD resursima, semantičku analizu i ponovljivu obradu u okviru istraživanja iz digitalne humanistike, korpusne lingvistike i semantičkog weba.

Model konverzije

  • tei:segnif:Context
  • tei:nernif:Phrase
  • qiditsrdf:taIdentRef
  • classitsrdf:taClassRef

Fajlovi

digiko_nif.ttl Glavni NIF dataset spreman za GraphDB/Fuseki import.
void.ttl VoID opis dataseta i osnovna metapodatkovna struktura.
dcat.ttl DCAT metapodaci za katalogizaciju i interoperabilnost.
tei_to_nif.py Ponovljiva skripta za automatsku TEI → NIF konverziju.
sparql_examples.rq Primeri SPARQL upita za endpoint i lokalni repozitorijum.

SPARQL primer

PREFIX nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#>
PREFIX itsrdf: <http://www.w3.org/2005/11/its/rdf#>

SELECT ?mention ?text ?class ?wikidata
WHERE {
  ?mention a nif:Phrase ;
           nif:anchorOf ?text ;
           itsrdf:taClassRef ?class .
  OPTIONAL { ?mention itsrdf:taIdentRef ?wikidata . }
}
LIMIT 100

Dodatno

  • Možete napraviti repozitorijum digiko u GraphDB ili Fuseki i uvesti digiko_nif.ttl kao glavni graf.
  • U toku je podizanje SPARQL endpoint i biće primera upita.

Ukoliko koristite DigIko corpus, molimo da citirate sledeći rad:

@inproceedings{lrec2026-digiko,
  author = {Ranka Stanković and Tamara Vučenović and Biljana Rujević and Milica Ikonić Nešić and Mihailo Škorić},
  title = {Integrating TEI, NER/NEL, Textometry, and Linked Data for a Semantically Enriched Interview Corpus},
  booktitle = {Proceedings of LREC 2026},
  year = {2026},
  address = {Palma de Mallorca, Spain}
}