Kursa kods DatZ7070
Fakultāte Datorikas fakultāte, Bioloģijas fakultāte
Kredītpunkti, lekciju skaits
Kredītpunkti ECTS kredītpunkti Kopējais auditoriju stundu skaits Lekciju stundu skaits Studenta patstāvīgā darba stundu skaits
4 6 64 64 96
E-kursi DatZ7070: Datizraces algoritmi
Kursa anotācija Datizraces (data mining) uzdevums ir noderīgas (arī negaidītas) informācijas iegūšana no lielām datu kopām, datu bāzēm vai datu noliktavām, izmantojot statistikas, mākslīgā intelekta, mašīnmācīšanās un citas metodes. Kursa mērķis ir datizraces principu, tās galveno metožu un algoritmu teorētiska un praktiska apgūšana.
Kursa atbildīgais Kārlis Podnieks
Rezultāti Zināšanas
Students izprot datizraces dotās iespējas un principus (koncepti EM12, em13).
Kompetences
Students teorētiski apguvis datizraces galvenās metodes un algoritmus (analīze EM21, EM22, inf.mekl. EM63).
Prasmes

Students praktiski apguvis datizraces uzdevumu risināšanu, izmantojot brīvpieejas programmatūru (analīze EM23, realiz. EM32, em33).



Kursa plāns 1. Datizraces vēsture. Ievads datizracē. Lekcijas 4 st.
2. Tirgus grozu analīze. Asociāciju likumu meklēšana (Apriori, FP-Growth, u.c.). Lekcijas 4 st.
3. Lēmumu koki (CART, C4.5 u.c.). Lekcijas 6 st.
4. Vizualizācija, formulu minēšana, datu gludināšana. Lekcijas 2 st.
5. Galveno komponentu analīze (PCA). Lekcijas 4 st.
6. Klasifikatori (LDA, SVM, naivais Beijesa algoritms u.c.). Lekcijas 6 st.
7. Klasteru meklēšana (tuvāko kaimiņu algoritmi, DBSCAN, K-means, u.c.). Lekcijas 8 st.
8. Datu dimensiju redukcija (MDS, KernelPCA, ISOMAP, t-SNE u.c.). Lekcijas 8 st.
9. Parametriskie modeļi un estimatori (MLE, Beijesa estimatori). Lekcijas 6 st.
10. Modeļ-bāzētā klasterizācija (EM-algoritms). Lekcijas 4 st.
11. PageRank algoritms. Lekcijas 2 st.
12. Meta-algoritmi (AdaBoost, balsošana u.c.). Lekcijas 4 st.

13. Datizrace tekstos. Lekcijas 6 st.








Prasības kredītpunktu iegūšanai Katrā no 3 klātienes kontroldarbiem ir jāiegūst vismaz atzīme 4 (2 kontroldarbi – semestra laikā, trešais – kā rakstisks eksāmens).
Regulāri, katru nedēļu, jāpilda e-kursā dotie uzdevumi (t.sk. jāraksta esejas). Par katru uzdevumu var saņemt noteiktu punktu skaitu. Atzīmi E (0 līdz 9) nosaka kopējais iegūto punktu skaits: 90% un vairāk - 9, 80% - 8, 65% - 7, 55% - 6, 45% - 5, 35% - 4, mazāk - 0.
Kursa gala atzīme tiek aprēķināta pēc formulas (K1+K2++K3+2*E)/5, kur K1, K2, K3 – klātienes kontroldarbu atzīmes; E – atzīme par e-kursa uzdevumu izpildi.

Tādā veidā starppārbaudījumu atzīmes sastāda 80% no kopēja kursa vērtējuma, rakstiskais eksāmens - 20%.
Mācību literatūra 1. Bertrand Clarke, Ernest Fokoue, Hao Helen Zhang. Principles and Theory for Data Mining and Machine Learning. Springer Series in Statistics, 2009, 798 pp. (LUB - 1 eks.)

2. David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. MIT, 2001, 550 pp. (LUB – 2 eks.)
Papildus literatūra 1. Jiawei Han, Micheline Kamber. Data Mining. Concepts and Techniques. 2nd Edition, Morgan Kaufmann, 2006, 770 pp. (LUB - 1 eks.)

2. Robert Nisbet, John Elder IV, and Gary D. Miner – Handbook of Statistical Analysis and Data Mining Applications – 2009 (LUB e-grāmata)
Periodika un citi informācijas avoti 1. Weka (Waikato Environment for Knowledge Analysis). University of Waikato, New Zealand, 2010. Pieejams tiešsaistē http://en.wikipedia.org/wiki/Weka_(machine_learning).

2. R (programming language). Pieejams tiešsaistē https://en.wikipedia.org/wiki/R_(programming_language)
Studiju programmas Bioloģija
Datorzinātnes
Datorzinātnes