Anotačný manuál - marxsk/sholva GitHub Wiki

#Anotačný manuál#

Cieľom anotácie je povedať, či má dané slovo vlasnosť X. Táto vlastnosť sa využíva pri sémantickej analýze textu a pri experimentoch s overovaním a tvorbou valencií (http://nlp.fi.muni.cz/projekty/verbalex).

Vo webovom rozhraní si zvolíte vhodný súboru, ktorý budete značkovať (obsahuje 1000 slov; za ideálnych podmienok 20 minút práce) a následne samotným značkovaním. V prípade pochybností využite pomocné vety (tlačítko HELP) kam si dosaďte slovo v správnom tvare (ide nám o význam vety, takže rod nemusí byť v zhode so slovesom). V každom súbore sa značkuje práve jedna vlastnosť.

Aktuálne značkujeme len podstatné meno (Petr, prezident, hostinský) v základnom tvare, ale akceptujeme aj nespisovné tvary (napr. poliš). Preklepy sú vždy nesprávne, zámená a číslovky sú tiež nesprávne (viď predchádzajúci riadok). V prípade, že sa má slovo písať s veľkým písmenom, tak jeho variantu s malým písmenom chápeme ako preklep tj. nesprávne.

  • vlastnosti sú obvykle odvodené od sekundárnych rolí vo Verbalexe, prípadné výnimky sú popísané nižšie
  • rozhranie bolo testované v prehliadačoch Mozilla Firefox a Safari
  • POZOR -- systém nefunguje korektne v prehliadači Internet Explorer

vlastnosť: _person

  • rola person:1 bola rozšírená o institution:1, social group:1, ...
  • jedná sa o slová, ktoré smú reprezentovať osobu (entitu so slobodnou vôlou) ako napr. (zoznam nie je komplektný, v prípade pochybností vám pomôžu pomocné vety):
    • vlastné mená osôb: Honza, Petr, Klaus
    • názvy spoločností, politických strán, krajín a iných združení osôb: Škoda, ODS, Čína
      • pozn. slovo "škoda" nemá vlastnosť _person; viď. poznámka o veľkých písmenách
    • povolania: profesor, zámečník
    • skupiny ľudí za ktorých niekto môže vystupovať: kapela, tým, oddělení, škola, kancelář
    • zvieratá, duchovia, ...
  • podtrieda: _person/individual
    • v jednotnom čísle token reprezentuje práve jedna osoba
  • podtrieda: _person/profession
    • jednotlivec, ktorý aktívne a sústavne vykonáva fyzickú/duševnú prácu
    • vrátane archaických: napr. markytánka, vozataj
  • podtrieda: _person/nationality
    • osoba pomenovaná na základe národnosti, alebo geografického pôvodu (napr. Brňák)

vlastnosť: _substance

  • jedná sa o slová, ktoré reprezentujú hmotu (niečo, čo zaberá priestor a je hmotné).
  • nepatria sem slová, ktoré vyjadrujú konkrétne objekty/výrobky, ktoré nepopisujú obsah objektu/výrobku (napr. dům, počítač, ...)
  • patria sem slová ako napr. (zoznam nie je kompletný, v prípade pochybností vám pomôžu pomocné vety):
    • druhy potravy
      • jedla: rizoto, polívka
      • pitia: pivo, káva, becherovka
      • zelenina a mäso: mrkev, zeler
      • lieky a drogy: acylpyrin, heroin
      • telesné tekutiny: hlien, krv
      • látky získané z rastlín/živočíchov: tabak, vlna, hedvábí
      • prírodné látky: ropa, uhlie, kov, zlato
      • chemické prvky: vodík, kyslík

vlastnosť: _event

  • rola event:1 rozšíréna o act:1, natural phenomenom:1, ...
  • patria sem všetky slová, ktoré reprezentujú dej/udalosť umiestnenú v čase
  • napríklad:
    • časové úseky: den, měsíc, rok
    • udalosti, ktoré sa dejú v prírode: déšť, bourka, zemětřesení
    • činnosti, ktoré vykonáva človek/zviera/rastlina/...: spánek, hlasování, výkop

vlastnosť: _pointable

  • můžeme na to ukázat
  • věci, lidé, stavby atd., ale i stín, oblak, duha, déšť apod.