유전학 (과학)



인간 게놈 프로젝트(Human Genome Project)에 따르면, 인간의 세포에서 발견되는 DNA의 길이가 염기쌍 약 5천만개에서 2억 4천만 개에 걸쳐있다고 합니다. 유전학자들은 유전자가 무엇인가에 대한 새로운 통찰을 얻기 위해 계속 연구해왔죠. DNA 줄기에서 인코딩 된 데이터의 양은 방대하고 유전자 사이의 상호 작용도 매우 복잡합니다. 이렇게 많은 데이터와 많은 변수들에서 과학자들은 어떻게 결과를 얻을 수 있었을까요? 알고리즘은 유전학에서 오래전부터 사용했습니다. 그후 유전기술은 유전학에 대한 지식을 효율적으로 증가시켜주었습니다.


그레고르 멘델은 완두콩 포드(pea pods)와 선택 번식에 관한 연구로 유명합니다. 멘델이 실험 결과 영향력 있는 결과는 패턴을 발견한 것입니다. 멘델은 수천가지의 식물을 연구하며, 그 결과 특정 형질이 선택됨을 발견했습니다. 그 결과를 보면 멘델은 패턴을 발견했는데, 유전법칙으로 알려지게 되었습니다. 비록 퍼네트표(유전표)는 그 이후 개발했지만 퍼네트표는 우리가 시각적으로 유전법칙을 알 수 있도록 도와줍니다. 퍼네트표를 만드는 것은 그 당시 멘델에게는 아주 큰 도전이었겠죠.


만일 꽃의 색을 결정하는 유전자가 있다고 합시다. 사람과 같이 꽃도 부모에게서 각각 다른 두 종류의 유전자를 받게 됩니다. 이 유전자는 유전적으로 다양하게 만드는 성질을 가지고 있으며 서로 다르겠죠. 이 유전자는 두 가지 타입이 있습니다. 보라색 꽃(P)과 흰 색이나 무색 꽃(p)이죠. 식물안에 유전자가 모두 흰 색 꽃인 경우(pp)에는 흰 꽃이 되겠죠. 반면 보라색 유전자가 하나라도 있으면(Pp 나 PP), 보라색 꽃이 됩니다.


퍼네트표는 아래 표와 같이 4개의 유형으로 자손이 나올 수 있음을 보여줍니다. 부모의 유전자를 이형이라고 합니다.



퓨넷 광장은 아래의 각 유형의 하나의 유전자가 두 부모의 자식에 대한 4 가능성을 표시합니다. 부모는 이질 접합체라고 불리웁니다. 한 개의 꽃이 보라색이 될 확률은 75%입니다. 이 확률은 부모의 우성 유전자나 열성 유전자에 따라 바꿔질 수 있습니다. 다중 유전자의 경우는 엄청난 가능성이 기하급수적으로 증가합니다. 만일 유전자 종류가 두 개라면 결과는 16개의 가능성을 가지고 3개라면 64개의 가능성이 생깁니다.


이런 자료의 수집과 계산을 빠르게 하면 대단하다고 여길 수 있습니다. 멘델이 일곱 가지 유전자 유형에 대한 실험 결과를 얻기 위해서 7년에 걸쳐 결과를 수집해야만 했었던 수고로움을 상상하기는 어렵습니다. 마찬가지로 인간을 구성하는 2만가지 유전자를 계산한다면 연필과 펜같은 전통적 계산법으로는 어림도 없습니다. 그러나 자료를 볼 때, 멘델이 한 방법처럼 패턴을 발견한다면 법칙을 만들어서 알 수 있도록 할 수 있습니다.


알고리즘은 패턴을 찾거나 확률을 계산하는 등의 과정으로써 자료들을 더 잘 이해하게 해주는 일련의 지시문입니다. 인간 세포가 DNA를 복제하거나 단백질을 합성하는 것과 같이 심지어 자료를 받아적거나 다른 형태로 바꾸는 것도 알고리즘입니다. 몸이 하는 행동은 기록(전사)할 수 있고 무엇인지 알 수 있지만 그 안에 있는 각 세포들이 수행하는 무수한 과정들은 알고리즘에 의해서 수행됩니다. 이 과정을 이해하는 것은 과학자들이 바이러스를 치료하는 것과 같은 인간 생리학을 이해하는데 도움을 줍니다.




전사와 해독의 예 (Transcription and Translation Example)


아래는 RNA(mRNA)에게 DNA가 전사하는 과정과 RNA로부터 아미노산을 해독하는 과정을 시뮬레이션한 코드의 예를 보여줍니다. 이 시뮬레이션은 세포가 몸에서 사용하는 단백질을 만드는 과정을 모방한 것입니다. 이 시뮬레이션으로 우리는 세포가 아미노산 사슬(체인)을 만드는 과정을 알 수 있게 됩니다.


다음의 예에서 최초의 DNA 조각은 HBB(헤모글로빈)을 만들기 위한 DNA 코드의 짧은 샘플(short sample)입니다. 두번째와 세번째 DNA 조각도 이와 같지만 두번째 DNA 조각은 5번째 염기(base)가 'C'에서 'T'로 바뀌는 점이 다르고, 세번째 조각은 'T'가 완전히 삭제되는 것이 다릅니다.


전사와 해독 알고리즘 예시


결과


첫번째 헤모글로빈 DNA 조각 DNA #1 : GGATCCTCACATGAGTTCAGTATATAATTGTAACAGAATAAAAAAT mRNA: CCUAGGAGUGUACUCAAGUCAUAUAUUAACAUUGUCUUAUUUUUUA 아미노산 사슬: Pro-Arg-Ser-Val-Leu-Lys-Ser-Tyr-Ile-Asn-Ile-Val-Leu-Phe-Phe


두번째 헤모글로빈 DNA 조각, 5번째 염기는 'T'에서 'C'로 변함 DNA #2 : GGATTCTCACATGAGTTCAGTATATAATTGTAACAGAATAAAAAAT mRNA: CCUAAGAGUGUACUCAAGUCAUAUAUUAACAUUGUCUUAUUUUUUA 아미노산 사슬: Pro-Lys-Ser-Val-Leu-Lys-Ser-Tyr-Ile-Asn-Ile-Val-Leu-Phe-Phe


세번째 헤모글로빈 DNA 조각, 5번째 염기 삭제됨 DNA #3 : GGATCTCACATGAGTTCAGTATATAATTGTAACAGAATAAAAAATC mRNA: CCUAGAGUGUACUCAAGUCAUAUAUUAACAUUGUCUUAUUUUUUAG 아미노산 사슬: Pro-Arg-Val-Tyr-Ser-Ser-His-Ile-Leu-Thr-Leu-Ser-Tyr-Phe-Leu



이렇게 하나의 DNA 염기가 변하거나 없어지는 과정은 단백질 생성시 극적으로 일어난다. 유전학자들이 이 과정을 수작업으로 처리하려면 수많은 연구가 필요할 것이다. 이와 달리 우리는 아미노산 결과를 즉시 볼 수 있다. 기술과 알고리즘을 통합하는 것은 보다 효율적으로 연구하게 해주어 분석과 실험을 할 보다 많은 시간을 준다. 이렇게 알고리즘을 구현하는 것에 비용을 더 많이 들이고, 활용도도 늘어나고 있습니다. 교사와 학생이 유전학적 자료를 탐색할 수 있게 됨에 따라 단지 유적학을 배우는 것뿐만아니라 우리 자신 스스로 연구할 수 있어서, 노벨상을 탈 연구까지 발전할 수도 있게 되었습니다.


만일 유전학 연구에 대해 보다 더 알기 원하시면 , 로잘린 문제해결을 하는 것은 어떨까요? 로잘린 문제는 처음에 생물 교육과정으로 시작합니다. 이 과정은 단지 지식만 주는 것이 아니라 문제를 해결할 알고리즘을 만들 능력을 줍니다. 설령 교사가 파이썬이나 다른 프로그램 언어를 구현할 수 없어도 학생 자신이 단계를 적어가면서 문제를 풀면서 혼자서 문제 해결을 해가면서 많은 통찰을 학생 스스로 얻게 됩니다.


생물정보학 분야에서 사용되는 툴을 살펴보려면, 구글 유전학의 API(Google Genomics API) 나 BLAST(BLAST),를 접속해 보세요. 거기서 알고리즘이 어떤 능력을 가지는지 주의깊게 살필 수 있습니다. 심지어 Fold.it(Fold.it).을 통해 생물학적 연구를 지원할 수도 있습니다. 또한, 퍼네트표, 생물정보학, 컴퓨팅 생물학, 인간 게놈 프로젝트에 관한 인터넷 자료를 검색할 수 있습니다. 학생과 함께 사용할 수 있는 관련 교육기준(standards)도 도움이 될 것입니다.