Warsztaty adiunkta Katedry Informatyki w ramach konferencji PyCon PL 2013

RSS

Dr inż. Krzysztof Dorosz, adiunkt w Katedrze Informatyki, poprowadzi warsztaty na temat przetwarzania języka naturalnego w praktyce w ramach szóstej edycji ogólnopolskiej konferencji z grupy PyCon współorganizowanej przez Polską Grupę Użytkowników Linuksa Oddział Śląsk, Studenckie Koło Naukowe Linuksa i Wolnego Oprogramowania oraz społeczność i sympatyków języka Python. Konferencja odbędzie się w dniach od 17 do 20 października 2013 r. w Hotelu „Orle Gniazdo” w Szczyrku.

W ramach warsztatów uczestnicy zapoznają się z praktycznymi aspektami przetwarzania języka naturalnego (j. polskiego). Podczas zajęć do wykonania będzie zadanie związane z algorytmami podobieństwa tekstu, które zastosowane zostaną do klastrowania tytułów aukcji internetowych w celu znalezienia przedmiotów podobnych. Głównymi tematami wykładu będą: 1) niunse kodowania tekstu (utf8 vs unicode w py 2.x), 2) użycia słownika fleksyjnego dla języka polskiego (otwarty słownik SJP), 3) prawo Zipfa dla tekstów, 4) pojęcie stop listy, 5) proste metryki LCS (Longest Common Substring), DICE i cosinusowe, 6) praca z korpusem tekstu (w CSV).

Wszelkie prawa zastrzeżone © 2010 Katedra Informatyki   |   Akademia Górniczno-Hutnicza   |   Realizacja Creative Bastards