JustPaste.it

DNA odczytuje komputer, a tłumaczy zanimowana piosenka Alana Bita

Problemy obliczeniowe związane z odczytywaniem ludzkiego DNA są ze względu na ich jakość i wielkość prawdziwym wyzwaniem dla informatyków. Zrozumienie ma ułatwić krótki teledysk.

Problemy obliczeniowe związane z odczytywaniem ludzkiego DNA są ze względu na ich jakość i wielkość prawdziwym wyzwaniem dla informatyków. Zrozumienie ma ułatwić krótki teledysk.

 

Jak wiadomo przekazywanie cech biologicznych komórkom organizmu następuje z udziałem kwasu dezoksyrybonukleinowego (DNA) tworzącego u człowieka sekwencję ok. 3 mld elementów (nukleotydów), z których każdy może przyjmować jedną z czterech możliwych wartości. Z matematycznego punktu widzenia DNA człowieka jest więc liczbą w układzie czwórkowym o ok. 3 mld cyfr (w układzie dziesiętnym będzie to ponad miliard cyfr). Oznacza to, że praktycznie nie ma szans na powtórzenie się tej samej DNA u dwóch osób i jest to unikalny kod każdego człowieka. Chociaż z drugiej strony liczba różniących dwóch ludzi nukleotydów jest tak niewielka, że można mówić o jednej wspólnej dla wszystkich ludzi sekwencji DNA i próbować odgadnąć tę sekwencję.

W połowie lat 80-tych powstał wielki międzynarodowy projekt (Genome Research Project), którego celem jest odtworzenie pełnej sekwencji nukleotydów w DNA człowieka. Z góry zakładano konieczność automatyzacji operacji odczytywania informacji z materiału genetycznego oraz dalszą jej obróbkę, gromadzenie i rozpowszechnianie z użyciem środków informatyki. I rzeczywiście dzisiaj możliwe jest przeszukiwanie za pośrednictwem sieci INTERNET rozmieszczonych na całym świecie baz danych genetycznych w celu porównywania i uzupełniania wyników. W każdym z tych miejsc bada się budowę wybranych fragmentów łańcucha co w końcu powinno doprowadzić do wypełnienia całej 3 miliardowej sekwencji.

Jedną z metod odtwarzania budowy DNA jest właśnie łączenie poznanych fragmentów łańcucha w większe sekwencje. Najbardziej podstawowym etapem jest łączenie 3 do 15-to elementowych odcinków (wszystkie jednakowej długości) w kilkudziesięcio- czy kilkuset- elementowe, a ostatnim etapem będzie połączenie wielomilionowych odcinków (różnej długości) w ostateczną 3 miliardową sekwencję.

f611233a3814bf667e75766b41609f4b.gif

Przykładowy zestaw 10-ciu odcinków DNA oraz minimalnej długości sekwencja utworzona z tych odcinków (proszę sprawdzić, że wszystkie odcinki "pasują" do sekwencji i że nie ma krótszej sekwencji o tej własności).

Można te zadania formułować jako problem optymalizacji kombinatorycznej polegający na znalezieniu takiej najkrótszej sekwencji nukleotydów, która zawiera w sobie wszystkie zadane odcinki DNA. Zbadano już, że najlepiej jest gdy znamy wszystkie możliwe odcinki na jakie można "pokroić" daną sekwencję. Można wtedy odtworzyć sekwencję dokładnie a przede wszystkim szybko. Jednak doświadczenia biologów moleku-larnych pokazują, że w praktyce trzeba wziąć pod uwagę dane niekompletne a wtedy nie dość, że wynik może być niejednoznaczny (otrzymamy np. setki równie prawdopodobnych sekwencji) to jeszcze jego znalezienie metodą systematyczną z użyciem najszybszych komputerów mogłoby zająć ... wiele wieków.

W ten sposób rozwiązywaniem problemów sekwencjonowania DNA zajmują się zespoły informatyków konstruujące odpowiednie algorytmy kombinatoryczne i programujący je oraz zespoły biologów molekularnych wykorzystujący utworzone programy do uzyskiwania konkretnych wyników biologicznych oraz sugerujący informatykom zadania do realizacji przez te programy.

Takie zespoły pracują też w Poznańskim Ośrodku Nauki przy ul. Wieniawskiego. Zespół biologów molekularnych pod kierunkiem prof. W. Markiewicza oraz zespół młodych informatyków z Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. prof. J.Błażewicza i J. Węglarza.

Informatycy i biologowie mają na miejscu do dyspozycji superkomputery (CRAY i SG Power Challenge) Poznańskiego Centrum Superkomputerowo-Sieciowego oraz stacje robocze Instytutu Informatyki Politechniki Poznańskiej (SUN, Hewlett Packard, Silicon Graphics czy TRANSTECH).

Informatycy dysponują już dużym bagażem wiedzy i doświadczeń w zakresie optymalizacji kombinatorycznej głównie dla potrzeb automatyzacji produkcji oraz realizacji funkcji systemu operacyjnego o czym świadczyć może to, że organizowali europejską konferencję w zakresie optymalizacji kombinatorycznej ECCO VIII (Gazeta Wielkopolska z 16-go maja 1995). Mimo wszystko jednak podjęcie przez zespół w większości inżynierów wyzwania z tak odległej dziedziny jak biologia molekularna pozostaje gestem dużej odwagi i twórczej wyobraźni w poszukiwaniu naukowej przygody.

Z tej to inspiracji powstała niedawno piosenka do animowanego filmu  http://vimeo.com/8372156