Daewoo DTH-29S7 Manual do Utilizador

Consulte online ou descarregue Manual do Utilizador para TVs e monitores Daewoo DTH-29S7. Ari Mustonen PÄÄOSIN OHJAAMATON SANASTON [en] Manual do Utilizador

  • Descarregar
  • Adicionar aos meus manuais
  • Imprimir
  • Página
    / 64
  • Índice
  • MARCADORES
  • Avaliado. / 5. Com base em avaliações de clientes
Vista de página 0
TIETOTEKNIIKAN OSASTO
Ari Mustonen
PÄÄOSIN OHJAAMATON SANASTON POIMINTA
RAKENTEETTOMASTA TEKSTISTÄ
Diplomityö
Tietotekniikan koulutusohjelma
Helmikuu 2014
Vista de página 0
1 2 3 4 5 6 ... 63 64

Resumo do Conteúdo

Página 1 - RAKENTEETTOMASTA TEKSTISTÄ

TIETOTEKNIIKAN OSASTOAri MustonenPÄÄOSIN OHJAAMATON SANASTON POIMINTARAKENTEETTOMASTA TEKSTISTÄDiplomityöTietotekniikan koulutusohjelmaHelmikuu 2014

Página 2 - TIIVISTELMÄ

102. LUONNOLLISEN KIELEN KÄSITTELYNPERUSMENETELMÄTLähtökohtaisesti sanaston kerääminen on yksi LKK-menetelmien sovellus, ja täten sil-lä on vahva teor

Página 3 - ABSTRACT

11suoranaisesti erottele sanoja toisistaan, on sanan käsite siltikin olemassa. [8]Sanaa pidetäänkin yhtenä universaalina luonnollisen kielen elementti

Página 4 - SISÄLLYSLUETTELO

12Suomessa sanat on perinteisesti luokiteltu morfologisen käyttäytymisen perusteel-la nomineihin, verbeihin sekä taipumattomiin sanoihin. Nominit jaka

Página 5

132.2.1. MerkkijonometriikatMonet ohjaamatonta oppimista hyödyntävät LKK-sovellukset hyödyntävät niin sa-nottua ortografista tietoa, eli käytännössä ne

Página 6 - ALKULAUSE

14N-grammien poimimista merkkijonoista ja sanojen vertaaminen niiden n-grammienavulla on havainnollistettu kuvassa 2.1.$m mu us st te ek ka al la a$$k

Página 7

152.2.4. Minimaalinen kuvauksen pituusMKP kuuluu ohjaamattomasti opetettavien kielimallien ryhmään. Sen yksinkertais-tettu toimintaperiaate on löytää

Página 8 - 1. JOHDANTO

16algoritmien toiminta tullaan esittelemään myöhemmin tässä työssä sekä niitä hyödyn-tävien käytännön sovellusten kautta että tarkemmin teoreettiselta

Página 9

17Selkokielisesti ilmaistuna, Bayesin mallin mukainen oppija suosii sellaisia hypotee-sejä, joiden mukaan tehty havainto on todennäköinen ja hypotetis

Página 10 - PERUSMENETELMÄT

18niitä segmentoimaan uudelleen niin, että jokaisen kappaleen segmentoinnissa hyödyn-netään kaikkien muiden kappaleiden segmentointeja. Kun näin jatke

Página 11

19DP (Dirichlettiprosessi) on keskeisessä roolissa ei-parametrisissa Bayesin menetel-missä, sillä sen avulla pystytään mallintamaan ja ratkaisemaan mo

Página 12

Mustonen A. (2014) Pääosin ohjaamaton sanaston poiminta rakenteettomastatekstistä. Oulun yliopisto, tietotekniikan osasto, 64 s.TIIVISTELMÄSanaston ka

Página 14 - $mustekala$

21P (cn= k|c1:n−1) =Nk− dn − 1 + α, 1 ≤ k ≤ K (2.7)P (cn= K + 1|c1:n−1) =α + d · Kn − 1 + αn = Lisättävän näytteen järjestysnumero.k = Mikä tahansa ei

Página 15

22daan lisätä erillisiä adaptorikerroksia [53, 54], joilla prosessilta toiselle siirtyvää tietoavoidaan muuntaa eri muotoon induktion tehostamiseksi.

Página 16

233. KATSAUS SANASTON POIMINNAN TUTKIMUKSEENOhjaamatonta sanaston oppimista ja poimintaa on tutkittu aikaisemmin kohtuullisessamäärin, vaikkakin kokon

Página 17

243.2. Goldwaterin menetelmäGoldwater esitteli tohtorin väitöskirjassaan Bayesin menetelmään perustuvan sanastonpoimijan. Järjestelmässä oli kaksi vai

Página 18

254. SANASTON POIMIJAN OSAT JA MENETELMÄTKuten luvussa 3 todettiin, sanaston poiminta voidaan jakaa kolmeen pääosaan: sanojenerottelu, MI ja SLI. Täss

Página 19

26määrää sanavälitietoa on perinteisesti luokiteltu ohjatuiksi tai osittain ohjatuiksi.Uusimmista ohjaamattomista menetelmistä MKP:hen ja transitiotod

Página 20

274.1.2. Minimaalinen kuvauksen pituusMKP:hen perustuva sanojen erottelu kuuluu kompressiopohjaisten menetelmien jouk-koon. Kompressiopohjaiset menete

Página 21

28Koko merkkijonon segmentointien todennäköisyydet voidaan laskea dynaamisella oh-jelmoinnilla, ja näiden todennäköisyyksien avulla voidaan näytteistä

Página 22

29Universaalisuuden kannalta edellä kuvatulla menetelmällä on se toivottu piirre, et-tei se oleta morfologian perustuvan etu- tai jälkiliitteisiin. Ku

Página 23

Mustonen A. (2014) Mostly-unsupervised lexicon acquisition from unstructuredtext. University of Oulu, Department of Computer Science and Engineering,

Página 24

304.3. Sanaluokan induktioSLI:ssä sanoille johdetaan sanaluokat ilman, että tiedetään yhdenkään sanan luokkaaetukäteen. Siinä voidaan käyttää korkeint

Página 25

314.3.3. Bayesiin pohjautuvat menetelmätSuurin osa perinteisistä Bayesiin pohjautuvista SLI-menetelmistä käyttivät pel-kästään MPM:ää klusterointikrit

Página 26

325. SANASTON POIMINNAN ARVIOINTISanaston poiminnan eri ratkaisumenetelmien lisäksi on syytä perehtyä siihen, mitenniillä saatuja tuloksia voidaan arv

Página 27

33jille voidaan antaa seuraavat selkokieliset merkitykset:• C: Löydetyt oikeat sanat, joiden sanaluokka on oikein.• S: Löydetyt oikeat sanat, joiden s

Página 28

345.3. Morfologian induktion arviointiPerinteisesti MI:tä on tyydytty arvioimaan tarkastelemalla asiantuntijoiden voimin,kuinka järkeviä järjestelmän

Página 29

35Vβ=(1 + β)hcβh + c(5.3)h =(1 jos H(C|K) = 01 −H(C|K)H(C)jos H(C|K) > 0c =(1 jos H(K|C) = 01 −H(K|C)H(K)jos H(K|C) > 0Vβ= V-mitta.β = Saannin p

Página 30

366. RATKAISUN KUVAUSTässä työssä toteutettiin ohjelmisto, joka poimii koneellisesti hyödynnettävää sanastoamerkkaamattomasta korpuksesta. Ratkaisu po

Página 31

37Kuva 6.1: Ohjelmiston datavuo. Tekstiä luetaan tiedostosta yksi kappale kerrallaan,ja jokaisesta kappaleesta erotellaan sanat. Erotellut sanat syöte

Página 32

38käsitellä tässä työssä sen syvällisemmin, sillä painopiste on ohjaamattomassa sanastonpoiminnassa. Käytännön sovelluksissa asiantuntijoiden merkkauk

Página 33

39Kuva 6.3: Sanaston poiminnan aktiviteettidiagrammi. Tekstiä luetaan aluksi kappa-le kerrallaan tiedostosta, ja kappaleet segmentoidaan ja lisätään s

Página 34

SISÄLLYSLUETTELOTIIVISTELMÄ ... 2ABSTRACT...

Página 35

40Kuva 6.4: Merkkijonon segmentoinnin aktiviteettidiagrammi. Sanoja eroteltiin yksitel-len lopusta alkaen, kunnes enempää sanoja ei ollut jäljellä. Yk

Página 36 - 6. RATKAISUN KUVAUS

41Pstr(c1...ck) =P (c1...ck, k|ΘC)Pcorr(k|c1...ck)P (k, ΘC)(6.1)Pstr(c1...ck, k|ΘC) =kYi=1P (ci|c1...ci−1)Pstr(c1...ck) = Koko merkkijonon todennäköis

Página 37

42Kuva 6.5: Sanan logaritmisen todennäköisyyden taaksepäin laskemisen aktiviteettidia-grammi.Algoritmin toiminta perustuu siihen, että kaikkien hypote

Página 38

43Pfwd(w1, w2) =(Pbigram(w1, w2)Ps(w2)Pm(w1w2) jos w16= $ ja w26= $Pbigram(w1, w2) muuten(6.3)Ps(w) = 1 − Psuff ix(w)Pm(c0...ck) = 1 − maxi=1...k[Pmor

Página 39

44maan tapaan kuin sanojen erottelussakin. Näistä prosesseista saatuja todennäköisyyk-siä käytettiin sellaisenaan eri morfologiasegmentointien todennä

Página 40

45Kuva 6.8: MI:n MH-siirtojen kutsuminen sekä MH-siirto MERGE, joka yhdistää pi-demmän vartalon lyhyempään, pidentäen näin sen päätteiden pituuksia.6.

Página 41

46Kuva 6.9: MI:n käyttämä MH-siirto SPLIT, joka hajottaa yhden vartalon useaksi pi-demmäksi vartaloksi, lyhentäen näin sen päätteiden pituuksia.Kuva 6

Página 42

47Päätteen todennäköisyys laskettiin myös PYP:n ja HPYP:n avulla. Suurin ero var-talon todennäköisyyden laskemiseen oli kuitenkin, että tyhjälle päätt

Página 43

48eli klusterointi pohjautui pelkästään ortografiaan, eikä distributionaalista tietoa hyö-dynnetty.Klusteroiti toteutettiin kuvan 6.12 aktiviteettidiag

Página 44

49Kuva 6.13: Sanaston koostamisen aktiviteettidiagrammi.

Página 45

5.2. Sanojen erottelun arviointi... 335.3. Morfologian induktion arviointi...

Página 46

507. RATKAISUN TESTAAMINEN JA MITTAUSTULOKSETTässä osiossa arviodaan, miten hyvin ratkaisu saavutti sille asetetut vaatimukset.Aluksi tarkastellaan ra

Página 47

51koostettiin sanaston koostajalla, ja asiantuntijan koostamiseen käyttämä aika mitattiin.Koostamisesta saatuja perusmuotoja ja sanaluokkia verrattiin

Página 48

52syötteellä tuotettiin 3.8 oikeellista sanan ja sanaluokan yhdistelmää työminuuttia koh-ti. Kun sanaluokkien oikeellisuutta ei huomioida, saatiin 19.

Página 49

5300.20.40.60.810.5 1 1.5 2 2.5 3TarkkuusSaantiF-mitta00.20.40.60.810.5 1 1.5 2 2.5 3TarkkuusSaantiF-mittaKuva 7.2: Sanojen erottelun F-mitan arvo suo

Página 50

5400.20.40.60.8110 20 30 40 50 60 70 80 90 100TarkkuusSaantiF-mitta00.20.40.60.8110 20 30 40 50 60 70 80 90 100TarkkuusSaantiF-mittaKuva 7.3: MI:n var

Página 51

55Sheet1Page 1Pääte Lukumäärä Pääte Lukumäärä Pääte Lukumääräa 11390 e 11834た967n 11025 n 7218語684ä 4068 nd 5537的573i 3721 s 5335学488en 2180 r 2837る。3

Página 52

56Sanojen erottelun tuloksissa mielenkiintoista oli, että erottelijan oppimisnopeus olivarsin korkea. Tämän osoittaa se, että F-mitan arvo vakautui en

Página 53

578. TYÖN JATKOKEHITYSTässä työssä toteutettua ratkaisua voitaisiin kehittää monin tavoin, ja tuloksia sekä mo-nikielisyyden tukea näin parantaa. Selk

Página 54

589. YHTEENVETOTässä diplomityössä tehtiin katsanto uusimpiin sanaston poiminnan menetelmiin jateoriaan sekä esiteltiin niiden pohjalta suunniteltu ja

Página 55

5910. LÄHTEET[1] Zernik U (1991) Lexical acquisition: exploiting on-line resources to build alexicon. Associates 9: 429.[2] Mikheev A (1997) Automatic

Página 56

ALKULAUSEHaluan kiittää tämän diplomityön valvojaa, Mika Rautiaista, hänen luonnollisen kielenkäsittelyyn liittyvästä asiantuntemuksestaan. Hänen alku

Página 57 - 8. TYÖN JATKOKEHITYS

60[18] Ukkonen E (1992) Approximate string-matching with q-grams and maximalmatches. Theoretical Computer Science 92(1): 191–211.[19] Gravano L, Ipeir

Página 58 - 9. YHTEENVETO

61[34] Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH & Teller E (1953)Equation of state calculations by fast computing machines. The journ

Página 59 - 10. LÄHTEET

62[51] Teh YW, Jordan MI, Beal MJ & Blei DM (2006) Hierarchical dirichlet processes.Journal of the American Statistical Association 101(476).[52]

Página 60

63[65] Ando RK & Lee L (2000) Mostly-unsupervised statistical segmentation of japa-nese: Applications to kanji. In: Proceedings of the 1st North A

Página 61

64[79] Goldwater S & Griffiths T (2007) A fully bayesian approach to unsupervised part-of-speech tagging. In: Annual meeting-association for comput

Página 62

LYHENTEIDEN JA MERKKIEN SELITYKSETLKK Luonnollisen kielen käsittelyLSA Latentti semanttinen analyysiMKP Minimaalinen kuvauksen pituusMH Metropolis-Has

Página 63

81. JOHDANTOIhmisten välinen viestintä ja keräämä tieto on suurelta osin esitetty jollakin meillekaikille tutuista ja helposti lähestyttävistä luonnol

Página 64

9eivät vielä täysin vastaa esimerkiksi kaikkiin monikielisyyden asettamiin haasteisiin.Jos näiden menetelmien jäljelle jäävät ongelmat voitaisiin ratk

Comentários a estes Manuais

Sem comentários