-
Notifications
You must be signed in to change notification settings - Fork 0
Notatki ze spotkań
Najnowsze od góry
Notatkę sporządziła: Sylwia
Obecne 3 osoby
• Omówienie problemów i efektów pracy
• Zaplanowanie dalszych kroków
Ze względu na to, że sporo osób stawia dopiero pierwsze kroki, zarówno w ML i jak samym programowaniu, nadal pojawia się sporo problemów w pracy z danymi. Dlatego postanowiliśmy przyjąć trochę inny sposób działania. Chcemy podzielić się pracą w ten sposób, żeby każdy przygotował coś na temat wykorzystywanych bibliotek. Będzie to dużo łatwiejsze, zwłaszcza dla osób początkujących, które mogą czuć się nieco przytłoczone. Oczywiście, dostępnej wiedzy jest mnóstwo, natomiast o wiele łatwiejsza jest ona do zrozumienia i przyswojenia, kiedy zostanie wytłumaczona na konkretnym przykładzie. Na ten moment wspomniany podział wygląda następująco:
- Iwona – omówienie pierwszego kroku: podział funkcji na kmery i zaimplementowanie na nową kolumnę
- Joanna – omówienie Word2Vec
- Sylwia – omówienie fastText
Najpierw postaramy się wrzucić przykładowe notebooki, żeby dać czas na zapoznanie się z nimi. Być może jeszcze w ostatnią środę miesiąca (27.05.2020) uda się zorganizować kolejne spotkanie, na którym omówimy wykorzystywane biblioteki.
Notatkę sporządziła: Sylwia
Obecnych 11 osób
• Omówienie problemów i efektów pracy
Większość osób miała problem z tym, jak zacząć pracę z danymi (głównie ze względu na niedostateczną jeszcze wiedzę z zakresu genetyki). Dlatego przygotowałyśmy z Iwoną krótką ściągę:
Praca z danymi krok po kroku:
- LabelEncoder/One-hot encoding - przekształcenie naszej zmiennej docelowej (class_name) na wartości liczbowe
- Podział sekwencji DNA na k-mery - traktujemy całą sekwencję, jak zwykły tekst (k-mery oddzielone spacjami), np. ATGGCATTC >> ATG TGG GGC GCA CAT ATT TTC
- Wektoryzacja (fasttext/TF-IDF/w2vec) - z w2vec mieliśmy do czynienia podczas jednego z wyzwań (jeśli ktoś jeszcze nie do końca wie, na czym to polega, najlepiej najpierw przerobić sobie wyzwanie). Innymi słowy chodzi o to, żeby zmienić otrzymane przez nas sekwencje (krok 2) na wektory.
- Dekompozycja (PCA, UMAP) umożliwiająca wizualizację danych na wykresie 3D plotly.
Mimo tych początkowych problemów podtrzymujemy chęć realizacji projektu. Nasza praca będzie opierała się teraz głównie na pracy z tekstem. Jeśli ktoś z Was nie miał jeszcze z tym do czynienia, warto by przerobił na początek wyzwania poświęcone temu zagadnieniu.
Dołączył do nas również Stanisław Łoboziak, biolog z Centrum Nauki Kopernik. Zaoferował wsparcie merytoryczne w temacie, nad którym będziemy pracować, za co jesteśmy bardzo wdzięczni.
Ustaliliśmy termin kolejnego spotkania na 29 kwietnia (środa). Liczymy na to, że do tego czasu wszystkim uda się wykonać przynajmniej 3 pierwsze kroki.
Notatkę sporządziła: Sylwia
Obecnych 10 osób
• Potencjalny temat projektu: Bakteriofagi – prezentacja Iwony
Iwona przybliżyła nam potencjalną tematykę projektu. Bez wątpienia jest on bardzo interesujący, jednak dla wszystkich nas praktycznie nieznany. Na razie wstępnie zapoznajemy się z tematem. Wniosek z naszego spotkania jest taki, że temat jest dość skomplikowany (dla laików na pewno) i trzeba poświęcić trochę czasu na jego zgłębienie, ale efekty projektu dzięki temu mogą wyjść bardzo ciekawe. Jeśli padnie deklaracja chęci pracy z danymi, Iwona przygotuje dodatkowo notebook startowy z danymi. Na pewno niezbędne będzie wparcie mentora – eksperta domenowego.
(Ze względu na sytuację związaną z ogłoszeniem stanu epidemii zostaliśmy zmuszeni do zorganizowania spotkania online. Druga część warszatów zostanie przełożona na inny termin, kiedy już sytuacja na to pozwoli)
- Do soboty (21.03) mamy czas na wstępne zapoznanie z materiałami przygotowanymi przez Iwonę i podjęcie decyzji o realizacji projektu.
- Po udostępnieniu przykładowych danych mamy czas do niedzieli (05.04), żeby każdy mógł się z danymi oswoić i na nich we własnym zakresie popracować. W międzyczasie ustalimy termin kolejnego spotkania online.
Notatkę sporządziła: Sylwia
Obecnych 12 osób
• warsztaty: “Wprowadzenie do Pythona” prowadził Irek Bohatyrewicz • dyskusja nad projektem
Pierwsza część spotkania była poświęcona warsztatom. Warszataty miały dotyczyć stricte pandasa, ale mieliśmy małe problemy techniczne (większość osób nie zabrała ze sobą laptopów). Dlatego zdecydowaliśmy podzielić warsztaty na 2 części i kolejne spotkanie zorganizować już w sali z 30 stanowiskami komputerowymi i przygotowanym środowiskiem.
W drugiej części rozmawialiśmy na temat projektu. Z informacji, jakie udało nam się zdobyć wynika, że dane z Urzędu są jak najbardziej do pozyskania (oczywiście wszystko na drodze formalnej). Nie do końca jednak wiadomo, jakimi danymi Urząd dysponuje i czy moglibyśmy na ich bazie zrealizować ciekawy projekt. Za to z bardzo interesującym pomysłem wyszła Iwona. Pracuje aktualnie z danymi medycznymi i zaproponowała, że być może uda jej się pozyskać dane do naszego projektu. Wstępnie projekt miałby dotyczyć wparcia terapii alternatywnych dla antybiotyków.
Notatkę sporządziła: Sylwia
Obecnych 7 osób
• spotkanie zapoznawczo-organizacyjne • prezentacja o Kaggle
Spotkanie składało się z dwóch części: merytorycznej i zapoznawczo-organizacyjnej. W pierwszej części Sylwia opowiedziała o serwisie Kaggle i podzieliła się swoimi doświadczeniami oraz wskazówkami z perspektywy osoby rozpoczynającej swoją przygodę z ML.
W drugiej części każdy z obecnych opowiedział coś o sobie, czym się zajmuje oraz jaką ma wizję funkcjonowania grupy i kolejnych spotkań. W zdecydowanej większości grupę stanowią osoby początkujące. Stąd też na pewno będziemy starali się organizować sporo warsztatów. Chcielibyśmy jednak jakoś ukierunkować nasze działania. Dlatego uznaliśmy, że dobrym pomysłem będzie najpierw wybranie tematu projektu, a następnie zdobywanie konkretnych umiejętności w ramach jego realizacji.
• Zastanowić się nad możliwościami pozyskania danych. Być może ktoś ma dostęp (osobiście lub przez kogoś) do danych, które moglibyśmy wykorzystać w projekcie. Dane są kluczową kwestią, dlatego zanim podejmiemy decyzję o projekcie, chcemy sprawdzić, jakie mamy możliwości. Być może uda się zrealizować projekt użyteczny dla lokalnej społeczności (np. dane z Urzędu Miasta).