Notatki ze spotkań

Najnowsze od góry

2020-05-06 (#5) ONLINE

Notatkę sporządziła: Sylwia
Obecne 3 osoby

Cel spotkania

• Omówienie problemów i efektów pracy
• Zaplanowanie dalszych kroków

Ze względu na to, że sporo osób stawia dopiero pierwsze kroki, zarówno w ML i jak samym programowaniu, nadal pojawia się sporo problemów w pracy z danymi. Dlatego postanowiliśmy przyjąć trochę inny sposób działania. Chcemy podzielić się pracą w ten sposób, żeby każdy przygotował coś na temat wykorzystywanych bibliotek. Będzie to dużo łatwiejsze, zwłaszcza dla osób początkujących, które mogą czuć się nieco przytłoczone. Oczywiście, dostępnej wiedzy jest mnóstwo, natomiast o wiele łatwiejsza jest ona do zrozumienia i przyswojenia, kiedy zostanie wytłumaczona na konkretnym przykładzie. Na ten moment wspomniany podział wygląda następująco:

Iwona – omówienie pierwszego kroku: podział funkcji na kmery i zaimplementowanie na nową kolumnę
Joanna – omówienie Word2Vec
Sylwia – omówienie fastText

Kwestie organizacyjne i zadanie domowe

Najpierw postaramy się wrzucić przykładowe notebooki, żeby dać czas na zapoznanie się z nimi. Być może jeszcze w ostatnią środę miesiąca (27.05.2020) uda się zorganizować kolejne spotkanie, na którym omówimy wykorzystywane biblioteki.

2020-04-08 (#4) ONLINE

Notatkę sporządziła: Sylwia
Obecnych 11 osób

Cel spotkania

• Omówienie problemów i efektów pracy

Większość osób miała problem z tym, jak zacząć pracę z danymi (głównie ze względu na niedostateczną jeszcze wiedzę z zakresu genetyki). Dlatego przygotowałyśmy z Iwoną krótką ściągę:

Praca z danymi krok po kroku:

LabelEncoder/One-hot encoding - przekształcenie naszej zmiennej docelowej (class_name) na wartości liczbowe
Podział sekwencji DNA na k-mery - traktujemy całą sekwencję, jak zwykły tekst (k-mery oddzielone spacjami), np. ATGGCATTC >> ATG TGG GGC GCA CAT ATT TTC
Wektoryzacja (fasttext/TF-IDF/w2vec) - z w2vec mieliśmy do czynienia podczas jednego z wyzwań (jeśli ktoś jeszcze nie do końca wie, na czym to polega, najlepiej najpierw przerobić sobie wyzwanie). Innymi słowy chodzi o to, żeby zmienić otrzymane przez nas sekwencje (krok 2) na wektory.
Dekompozycja (PCA, UMAP) umożliwiająca wizualizację danych na wykresie 3D plotly.

Mimo tych początkowych problemów podtrzymujemy chęć realizacji projektu. Nasza praca będzie opierała się teraz głównie na pracy z tekstem. Jeśli ktoś z Was nie miał jeszcze z tym do czynienia, warto by przerobił na początek wyzwania poświęcone temu zagadnieniu.
Dołączył do nas również Stanisław Łoboziak, biolog z Centrum Nauki Kopernik. Zaoferował wsparcie merytoryczne w temacie, nad którym będziemy pracować, za co jesteśmy bardzo wdzięczni.

Kwestie organizacyjne i zadanie domowe

Ustaliliśmy termin kolejnego spotkania na 29 kwietnia (środa). Liczymy na to, że do tego czasu wszystkim uda się wykonać przynajmniej 3 pierwsze kroki.

2020-03-18 (#3) ONLINE

Notatkę sporządziła: Sylwia
Obecnych 10 osób

Cel spotkania

• Potencjalny temat projektu: Bakteriofagi – prezentacja Iwony

Iwona przybliżyła nam potencjalną tematykę projektu. Bez wątpienia jest on bardzo interesujący, jednak dla wszystkich nas praktycznie nieznany. Na razie wstępnie zapoznajemy się z tematem. Wniosek z naszego spotkania jest taki, że temat jest dość skomplikowany (dla laików na pewno) i trzeba poświęcić trochę czasu na jego zgłębienie, ale efekty projektu dzięki temu mogą wyjść bardzo ciekawe. Jeśli padnie deklaracja chęci pracy z danymi, Iwona przygotuje dodatkowo notebook startowy z danymi. Na pewno niezbędne będzie wparcie mentora – eksperta domenowego.

(Ze względu na sytuację związaną z ogłoszeniem stanu epidemii zostaliśmy zmuszeni do zorganizowania spotkania online. Druga część warszatów zostanie przełożona na inny termin, kiedy już sytuacja na to pozwoli)

Kwestie organizacyjne i zadanie domowe

Do soboty (21.03) mamy czas na wstępne zapoznanie z materiałami przygotowanymi przez Iwonę i podjęcie decyzji o realizacji projektu.
Po udostępnieniu przykładowych danych mamy czas do niedzieli (05.04), żeby każdy mógł się z danymi oswoić i na nich we własnym zakresie popracować. W międzyczasie ustalimy termin kolejnego spotkania online.

2020-02-12 (#2)

Notatkę sporządziła: Sylwia
Obecnych 12 osób

Cel spotkania

• warsztaty: “Wprowadzenie do Pythona” prowadził Irek Bohatyrewicz • dyskusja nad projektem

Pierwsza część spotkania była poświęcona warsztatom. Warszataty miały dotyczyć stricte pandasa, ale mieliśmy małe problemy techniczne (większość osób nie zabrała ze sobą laptopów). Dlatego zdecydowaliśmy podzielić warsztaty na 2 części i kolejne spotkanie zorganizować już w sali z 30 stanowiskami komputerowymi i przygotowanym środowiskiem.
W drugiej części rozmawialiśmy na temat projektu. Z informacji, jakie udało nam się zdobyć wynika, że dane z Urzędu są jak najbardziej do pozyskania (oczywiście wszystko na drodze formalnej). Nie do końca jednak wiadomo, jakimi danymi Urząd dysponuje i czy moglibyśmy na ich bazie zrealizować ciekawy projekt. Za to z bardzo interesującym pomysłem wyszła Iwona. Pracuje aktualnie z danymi medycznymi i zaproponowała, że być może uda jej się pozyskać dane do naszego projektu. Wstępnie projekt miałby dotyczyć wparcia terapii alternatywnych dla antybiotyków.

2020-01-15 (#1)

Notatkę sporządziła: Sylwia
Obecnych 7 osób

Cel spotkania

• spotkanie zapoznawczo-organizacyjne • prezentacja o Kaggle

Spotkanie składało się z dwóch części: merytorycznej i zapoznawczo-organizacyjnej. W pierwszej części Sylwia opowiedziała o serwisie Kaggle i podzieliła się swoimi doświadczeniami oraz wskazówkami z perspektywy osoby rozpoczynającej swoją przygodę z ML.
W drugiej części każdy z obecnych opowiedział coś o sobie, czym się zajmuje oraz jaką ma wizję funkcjonowania grupy i kolejnych spotkań. W zdecydowanej większości grupę stanowią osoby początkujące. Stąd też na pewno będziemy starali się organizować sporo warsztatów. Chcielibyśmy jednak jakoś ukierunkować nasze działania. Dlatego uznaliśmy, że dobrym pomysłem będzie najpierw wybranie tematu projektu, a następnie zdobywanie konkretnych umiejętności w ramach jego realizacji.

Zadanie domowe

• Zastanowić się nad możliwościami pozyskania danych. Być może ktoś ma dostęp (osobiście lub przez kogoś) do danych, które moglibyśmy wykorzystać w projekcie. Dane są kluczową kwestią, dlatego zanim podejmiemy decyzję o projekcie, chcemy sprawdzić, jakie mamy możliwości. Być może uda się zrealizować projekt użyteczny dla lokalnej społeczności (np. dane z Urzędu Miasta).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Notatki ze spotkań

2020-05-06 (#5) ONLINE

Cel spotkania

Kwestie organizacyjne i zadanie domowe

2020-04-08 (#4) ONLINE

Cel spotkania

Kwestie organizacyjne i zadanie domowe

2020-03-18 (#3) ONLINE

Cel spotkania

Kwestie organizacyjne i zadanie domowe

2020-02-12 (#2)

Cel spotkania

2020-01-15 (#1)

Cel spotkania

Zadanie domowe

Clone this wiki locally