<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Hastalık Tanısı İçin Yeni Nesil Dizileme Verisi Analizi: Gereksinimler ve Bir Çözüm Önerisi</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Orçun Taşar</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Esra Çınar</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>ve Hüseyin Onay</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Anahtar Kelimeler: Yeni Nesil Dizileme Verisi Analizi, Yeni Doğan Tarama Programı</institution>
          ,
          <addr-line>Nanopor, Genetik Varyant</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Ege Üniversitesi Tıp Fakültesi</institution>
          ,
          <addr-line>İzmir</addr-line>
          ,
          <country country="TR">Türkiye</country>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>İdea Teknoloji Çözümleri</institution>
          ,
          <addr-line>İstanbul</addr-line>
          ,
          <country country="TR">Türkiye</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>The rapid advance in genome sequencing technology has led to the decrease of sequencing costs and hence, to the production of vast amount of genomic data. It is not possible to process the large amount of Next-Generation Sequencing Data without the use of information and communication technologies. In this study, we discuss the requirements with respect to the secure storage, access and analysis of rapidly expanding genomic data, and we present the solution we propose as part of an ongoing TEYDEB project. Within the scope of the TEYDEB project titled “Development of a fast kit for the diagnosis of frequent newborn metabolic diseases with Next-Generation Sequencing data analysis”, a DNA testing kit for the diagnosis of 10 metabolic diseases will be developed using genomic markers. In this study, we propose a solution for the storage and automatization of data analysis of the data generated by Oxford Nanopore MinIon.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>1</p>
    </sec>
    <sec id="sec-2">
      <title>Giriş</title>
      <p>Bu çalışmada, TEYDEB destekli “Sık Gözlenen Yenidoğan Metabolik Hastalıklarının
Hızlı Tanısı için Yeni Nesil Dizi Analizi Temelli Kit Geliştirilmesi” projesi
kapsamında, genomik tabanlı belirteçlerin kullanılmasıyla hastalık tanısı için, veri
analizinin otomatize edilmesi; verilerin aktarılması; tutulması ve sonuçların kolay
anlaşılmasına dair konular tartışılmakta ve bir çözüm önerisi sunulmaktadır. Proje
kapsamında MinION platformunda kullanılmak üzere on metabolik hastalık için bir
yenidoğan tarama kiti geliştirilecektir. Oxford Nanopore Technologies (ONT)
şirketinin geliştirdiği MinION, nanopor aracılığı ile direkt tek molekül dizilimi yapan
ticarileşmiş ilk üründür. DNA örneği cihaza yüklendikten sonra çıkan ham verinin
analiz edilerek hastalığa sebep olan mutasyonların varlığına dair bir sonuca ulaşılması
hedeflenmektedir. Literatürde yenidoğan taramada ve doğuştan metabolik
hastalıkların tanısında yeni nesil dizi analizi kullanımına yönelik az sayıda çalışma
bulunsa da, MinION ile hızlı bir şekilde sonuç veren bir uygulamaya örnek bir
çalışma bulunmamaktadır. Ayrıca, henüz nanopor teknolojisi ile elde edilen verilerin
analizi için standart hale gelmiş bir uygulama yoktur. Kitin klinik alanda pratik
uygulamaya geçmesi için kullanımının kolay olması ve yeterince hızlı olması
gerekmektedir. Bu amaçla, MinION ile elde edilen genetik verinin analizi için
otomatik bir çözüm geliştirilmesine; kullanım kolaylığı sağlamak için farklı
kullanıcılar düşünülerek arayüzler tasarlanmasına ve saptanan varyantların
raporlandığı bir arayüzün sisteme entegre edilmesine ihtiyaç duyulmaktadır.</p>
      <p>Varolan yenidoğan tarama programlarında topuktan alınan kan örneği ile test
yapılmaktadır. Bu testlerin sonuçları bazı hastalıklar için çocuğun beslenmesine
bağlıdır. Örneğin Fenilketonüri taraması için bebeğin en az 48 saat beslenmiş olması
gerekir. Hastaneden çıkış zamanı, bebeğin yoğun bakımda olması ve parenteral
beslenmesi durumlarında bu testi yaptırmak için beklemek veya tekrardan sağlık
merkezine başvurmak gerekecektir. Biyotinidaz enzim eksikliği taramasında ise 48
saatlik numunenin taranması sonucu şüpheli olabilecek bir durum varsa ikinci kere
kan örneği alınması gerekebilmektedir. Geliştirilecek olan bu kit, minimal invaziv
girişimle tanıya imkan sağlayacak, klinisyeni laboratuvar şartlarının sağlanması
mecburiyetinden kurtaracaktır. Doğuştan metabolik hastalıkların taramasında
kullanılan testlere göre çok daha duyarlı bir test oluşturulurken, bu amaçla
kullanımında kit yüksek doğruluk oranıyla, doğrulama testi ihtiyacını ortadan
kaldıracaktır. Doğuştan metabolik hastalıkların tanısında kullanılan çok sayıda testin
yerine aynı anda hızlı bir değerlendirme imkanı sunacak, bu sayede hem zaman
kaybından klinisyeni korurken, hem de maliyet etkin bir çözüm sağlayacaktır. Bu kit
sayesinde hayati tehtid altındaki yenidoğanın hızlı tanısı ve sonunda hızlı tedavisine
imkan verecektir.</p>
      <p>Hastalara doğru ve hızlı genetik tanı koyulabilmesi amacıyla genom üzerindeki
varyantların doğru bir şekilde saptanması gerekmektedir. Çalışmamızda bu amaca
yönelik olan, DNA dizilemesi; dizileme verilerinin analiz edilmesi ile varyantların
saptanması ve raporlanması; ve elde edilen verilerin güvenli saklanması konularına
yer verilmiştir. Bölüm 1.1’de genom dizileme teknolojisinde yaşanan gelişmeler ve
projemiz için seçilen nanopor teknolojisine dair detaylar anlatılmaktadır. Dizileme
verilerinin analiz sürecinin, rutin tanı amacıyla standart hale getirilmesi için
önerilerimiz, ilgili veri formatları ve veri analizindeki önemleri çerçevesinde Bölüm
2’de anlatılmaktadır. MinION verileri için optimize edeceğimiz analiz sürecinin, bulut
tabanlı bir platform üzerinde hızlı ve güvenli bir şekilde yürütülmesi amacıyla
tasarladığımız web uygulamasının detayları Bölüm 3’te verilmiştir.
1.1</p>
      <sec id="sec-2-1">
        <title>Genom Dizileme Teknolojisindeki Gelişmeler</title>
        <p>Genom üzerindeki varyantların doğru ve sağlıklı bir şekilde saptanabilmesi,
dolayısıyla da hastalara doğru ve hızlı bir tanı koyulabilmesi için, DNA dizileme
aşaması çok önemlidir. Bu bölümde, dizileme teknolojileri alanında yaşanan
teknolojik gelişmeler anlatılacaktır ve projemiz için seçtiğimiz MinION dizileme
platformuna dair detaylar verilecektir.</p>
        <p>
          İnsan Genom Projesi hakkındaki ilk bulgular 2001 yılında paylaşılmış ve proje
2003 yılında başarılı bir şekilde tamamlanmıştır [
          <xref ref-type="bibr" rid="ref1 ref2">1, 2</xref>
          ]. Projenin üzerinden geçen son
15 yılda genomik bilimi devrimsel bir sürece girmiş ve uygulama alanlarında
kullanılan teknolojilerde büyük bir gelişme yaşanmış olup, bu gelişmeler genetik
alanında yapılan çalışmaların hızlanmasına ve genetik tanının daha hızlı ve daha az
maliyetle koyulabilmesine olanak sağlamıştır.
        </p>
        <p>
          İnsan Genom Projesi, 1977 yılında Frederick Sanger tarafından yayınlanan ve
birden fazla insanın Nobel ödülü almasını sağlayan bir DNA dizileme yöntemi
kullanılarak gerçekleştirilmiştir [
          <xref ref-type="bibr" rid="ref3 ref4">3, 4</xref>
          ]. Bu yöntem günümüzde Sanger Dizileme olarak
anılmaktadır. 1987 yılında Applied Biosystems tarafından bu dizileme tekniğini
otomatize hale getiren ilk cihaz üretilmiş (ABI 370) ve bu gelişmeyle birlikte 1990
yılında Amerika Enerji Kurumu ve Ulusal Sağlık Enstitüsü (National Institutes of
Health – NIH) tarafından İnsan Genom Projesi başlatılmıştır. Proje yaklaşık 13 yılda
tamamlanmış ve 2.7 milyar dolara mal olmuştur [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ]. Sanger dizileme yöntemi her ne
kadar farklı boyutlardaki DNA fragmanlarının dizilenmesi konusunda esneklik
sağlasa da yüksek maliyetler karşılığında uzun sürelerde düşük çıktılar vermesi
genomik alanını yeni nesil dizileme yöntemlerine doğru itmiştir. Sanger dizileme
yöntemi günümüzde hala doğrulama amacıyla kullanılmaktadır ama DNA dizileme
alanındaki yarış artık yeni nesil teknikler kullanan cihazlar arasında
gerçekleşmektedir.
        </p>
        <p>
          Yeni nesil DNA dizileme yöntemleri biyokimyasal mekanizmalar bazında
değişkenlik gösterse de temelde hepsi aynı işlemi gerçekleştirmeye çalışmaktadır:
kitlesel bir dizilemenin aynı anda paralel bir şekilde gerçekleştirilmesi. Bu fikirle
2000 yılında piyasaya sürülen ilk yöntemlerden birinin Lynx Therapeutics tarafından
geliştirilen ‘kitlesel imza dizileme’ yöntemi olduğunu görüyoruz. Bu süreci 2005
yılında piyasaya sürülmüş ve birçok çalışmada yeni nesil DNA dizilemenin başlangıcı
olarak kabul edilen Roche 454 ‘pirodizileme’, 2007 yılında Illumina’nın ‘sentez ile
dizileme’ ile Applied Biosystem tarafından geliştirilen ‘ligasyon ile dizileme’ ve 2010
yılında Life Technologies tarafından geliştirilen ‘iyon yarı iletken’ sistemleri takip
ettiler [
          <xref ref-type="bibr" rid="ref6">6</xref>
          ]. Şu an yeni nesil DNA dizileme pazarının en büyük üreticisi konumunda
olan Illumina, MiniSeq, MiSeq, NextSeq 500/550, HiSeq serisi ve NovaSeq 6000 gibi
‘sentez ile dizileme’ sistemini kullanan dizileme platformu modelleriyle hedeflenmiş
gen panellerinden tüm ekzom ya da tüm genom çalışmalarına ideal olacak şekilde
farklı çözümler sunmaktadır. 1987 yılında üretilen ilk Sanger dizileme cihazı olan
ABI 370’in günlük DNA dizisi okuma kapasitesi yaklaşık 400.000 nükleotit (400Kb)
iken [
          <xref ref-type="bibr" rid="ref7">7</xref>
          ], bugün Illumina NovaSeq 6000 cihazı tek bir yürütmede 3 trilyon nükleotit
(3000Gb) okuma kapasitesi ile aynı anda 30x derinlikte 48 insan genomunu 44 saat
içinde rahatlıkla okuyabilmektedir [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ].
        </p>
        <p>Yeni nesil DNA dizileme yöntemleri Sanger dizilemeye göre nükleotit başına
okuma maliyetini önemli ölçüde düşürüp, okuma hızını ve çıktı boyutunu arttırmış
olsalar da 75 – 150 baz gibi kısa okuma uzunluklarından dolayı, DNA’daki kopya
sayısı değişikliklerini (copy number variations – CNV), büyük insersiyon veya
delesyon gibi yapısal varyantları saptama konusunda zayıf kalabilmektedirler. Yeni
nesil DNA dizileme yöntemlerinin genetik alanında açtığı çığır ve hala daha duyulan
farklı ihtiyaçlar DNA dizileme üzerine yeni yaklaşımların oluşmasını sağlamaya
devam etmektedir.</p>
        <p>
          Oxford Nanopore Teknolojisi. Günümüzde Oxford Nanopore firmasının ürettiği
cihazlar polimeraz zincir reaksiyonu ile DNA kalıplarının çoğaltılmasına ihtiyaç
duymadan tek molekül üzerinden 150 bin baza kadar başarılı bir şekilde uzun
okumalar yapabilmektedir. Çalışma kapsamında tarafımızca kullanılacak olan Oxford
Nanopore dizileme platformu, MinION, platform üzerinde dizileme işlemi devam
ederken aynı anda veri analizine de olanak sağlamaktadır. Fiziksel boyut, okuma hızı
ve stratejisi, eş zamanlı analiz süreçlerinde on beş dakikada tanı koyabilme, DNA
dizileme çalışmasından metilasyon paterni gibi epigenom bilgilerinin elde
edilebilmesi gibi özelliklerinden dolayı bu platformların kullandığı sistemler üçüncü
nesil dizileme platformları olarak da adlandırılmaktadır [
          <xref ref-type="bibr" rid="ref10 ref9">9, 10</xref>
          ].
        </p>
        <p>
          MinION dizileme platformu10x2x3 cm boyutlarında, 90 gr ağırlığında küçük bir
cihaz olup, okuma için gereksinim duyduğu enerjiyi USB 3.0 bağlantısından
sağlayabilmektedir. DNA dizisi okuma stratejisi, yaklaşık 1 nm çapındaki porlardan
geçen DNA fragmanlarının iletken ortamda yarattığı pikoamper (pA) boyutundaki
elektriksel değişikliklere dayanmaktadır. Her bir nükleotit elektrik akımında farklı
paternlerde değişikliğe neden olduğundan dolayı, nükleotitler porlardan geçerken
tanımlanabilmektedir. Bu değişiklikler por etrafında bulunan sensörler tarafından
okunup eş zamanlı olarak kaydedilmektedir. Buna benzer şekilde, küçük porlardan
geçirilen DNA fragmanlarının herhangi bir senteze veya ligasyona ihtiyaç duymadan
direkt olarak dizilenebilmesi üzerine teoriler 1990’ların başından beri tartışılmakta
olan bir konuydu, Oxford Nanopore firması ise projeye 2007 yılında başlamış ve 2014
yılında MinION Kabul Programı (MinION Access Program – MAP) ile platformun
araştırma gruplarınca kullanılmasını sağlamıştır. MinION şu an ticari olarak satışta
olan bir dizileme platformudur [
          <xref ref-type="bibr" rid="ref11 ref12">11, 12</xref>
          ].
        </p>
        <p>Çalışmamız kapsamında MinION dizileme platformu ve verisi ile çoğunlukla
çocukluk çağında başlangıç gösteren ve büyük kısmı tek gen defekti kaynaklı
yenidoğan metabolik hastalıklarının tanısının hızlı, kolay ve başarıyla
gerçekleştirilebilmesi için TEYDEB-1511 proje desteği ile bir çözüm geliştirilmesi
hedeflenmektedir. Tanının olabilecek en hızlı şekilde yapılabilmesi projenin
öncelikleri arasındadır. Bu sebeple ıslak laboratuvarda kullanılacak hızlı bir dizileme
protokolü için, yaklaşık on dakikalık bir ön hazırlığa ihtiyaç duyan MinION dizileme
platformu seçilmiştir. Dizileme platformundan elde edilecek verinin sağlıklı ve tutarlı
analizinin hızlı ve performanslı bir ortamda gerçekleştirilmesi için önerdiğimiz
çözümler Bölüm 2 ve 3’te anlatılmıştır.</p>
        <p>Çalışma kapsamında MinION platformu ile analizi gerçekleştirilecek sık gözlenen
yenidoğan metabolik hastalıklarının listesi ve ilgili genler Tablo 1’de verilmiştir.
Mendeliyen tipinde olan bu hastalıkların referans genlerine dair bilgiler Online
Mendelian Inheritance in Man (OMIM) veritabanında yer almaktadır.
Tablo 1. Çalışma kapsamında MinION platformu ile analizi gerçekleştirilecek sık gözlenen on
yenidoğan metabolik hastalıkları.</p>
      </sec>
      <sec id="sec-2-2">
        <title>Yenidoğan Metabolik Hastalıkları</title>
        <p>İzovalerik asidemi
Metil malonik asidemi
Fenilketonüri
Maple şurup idrar hastalığı
Tirozinemi tip 1
Biotinidaz eksikliği
Galaktozemi
Glukojen depo hastalığı tip 2
Mukopolisakkaridoz tip 1
Nieman-Pick Hastalığı
MinION verisini kullanan ve günümüzde rutin tanı için standart hale gelmiş bir analiz
süreci mevcut değildir. Bunun sebeplerinden biri, her ne kadar kullanımı
yaygınlaşmaya başlamış da olsa, MinION dizileme platformunun uygulanabilirlik
açısından yeni bir teknoloji olmasıdır. Elde edilen verinin yorumlanmasına dair
günümüzde farklı bakış açıları ve farklı algoritmalarla tasarlanmış biyoenformatik
araçlar mevcuttur fakat daha önce yapılan çalışmalarda çoğunlukla bu araçların
verimli bir şekilde bir araya getirilmesinden ziyade MinION dizileme platformunun
hangi amaçlarla kullanılabileceğine, verinin nasıl üretildiğine ve bu verinin nasıl
işlenebileceğine dair kısıtlı gözlemlere odaklanılmıştır. Biz çalışmamızın ilk kısmında
tamamıyla MinION verisinin nasıl daha verimli ve tutarlı bir şekilde ele alınabileceği
üzerinde duracak ve rutin tanı için bir çözüm sunacağız.</p>
        <p>Dizileme sonrası elde edilen ham verilerin varyant bilgisine dönüştürülmesi için
biyoenformatik analizlerin yapılması gerekmektedir. Bu analizler, baz çağırma; kalite
tayini; adaptör kırpılması; hizalama; varyant çağırma; anotasyon; görselleştirme gibi
aşamaları içermektedir. Bu bölümde, çeşitli veri formatları, veri analizi sürecindeki
önemleri açısından anlatılmaktadır.</p>
        <p>
          Dizileme cihazlarından alınan ilk ham veriler çoğunlukla fluoresan rengi veya
şiddeti, ph veya elektrik akımı değişimi gibi analitik verilerdir ve genetik veri
analizine başlanabilmesi için elde edilmiş olan bu ham verilerin nükleotit bilgilerine
çevrilmesi gerekmektedir (baz çağırma – base calling). Bu aşama dizileme sırasında
platform içerisinde gerçekleşebileceği gibi, çevrimdışı bir şekilde ilgili
biyoenformatik araçları ile de düzenlenebilir. MinION platformunun verdiği ham veri
porlar etrafına konumlanmış olan sensörlerin, DNA fragmanlarının por içinden geçişi
sırasında detekte ettikleri elektriksel değişimlerdir ve bu bilgiler bir HDF5 (hiyerarşik
veri formatı 5) [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ] standardına dayanan FAST5 dosya formatında kaydedilir.
MinION akış hücresi üzerindeki porlardan geçen her bir DNA fragmanı için sadece o
okumaya özgü benzersiz bir FAST5 dosyası yaratılır. Bu dosya içerisinde, DNA
fragmanının okunması sırasında por içindeki iletken ortamda yer alan elektrik
akımının zamana karşı pA cinsinden değerleri ve okumaya dair meta veriler
hiyerarşik bir biçimde yer alabilir. FAST5 dosyaları dizileme işlemi boyunca
oluşturuldukça USB 3.0 bağlantısı üzerinden kullanıcı bilgisayarına iletilmekte, bu da
dizileme devam ederken eş zamanlı analiz imkanı tanımaktadır.
        </p>
        <p>FAST5 dosya formatı içerisinden genetik bilgilere ulaşabilmek için öncelikle bu
verilerin nükleotit bilgilerine çevrilmesi gerekmektedir. Bunun için Oxford
Nanopore’un, bulut tabanlı ve çevrimiçi kullanılabilen Metrichor ve yine çevrimdışı
kullanılmak üzere Albacore adında iki aracı mevcuttur. Bundan sonraki her aşamada
da olacağı gibi baz çağırma aşamasında da üçüncü parti araçlar mevcuttur.
Çalışmamız kapsamında bizim ilk önceliğimiz çevrimdışı araçları kullanmak
olacaktır.</p>
        <p>
          Baz çağırma aşamasının ardından elde edilen veri formatı FASTQ olacaktır.
FASTQ günümüzde biyoenformatik araçların çoğunlukla kullandığı ve oldukça kabul
görmüş bir ilk girdi formatıdır. FAST5 formatının aksine bir FASTQ dosyasında
binlerce DNA fragmanı okuması okuma kalitesi skorları, platform bilgileri, okumanın
akış hücresi üzerinde hangi koordinattan geldiği gibi bilgiler ile beraber saklanabilir
[
          <xref ref-type="bibr" rid="ref14">14</xref>
          ].
        </p>
        <p>DNA fragmanlarının uçlarına MinION cihazına yüklenmeden önce laboratuvar
ortamında adaptörler eklenmekte ve sonra tüm örneklerden gelen bütün DNA
fragmanları aynı ortamda homojen bir şekilde karıştırılarak MinION üzerindeki akış
hücresine aktarılmaktadır. Bu adaptörler hangi fragmanın hangi örnekten geldiğini
belirten bir etiket görevini görür. Baz çağırma işlemi sırasında elde edilen ilk FASTQ
dosyalarında da bu adaptör dizilerinin bilgileri bulunmaktadır. Referans genom
hizalama aşamasında adaptör dizileri yanlış skorlamaya ve dolayısıyla hizalanmama
durumuna sebebiyet vermemeleri için okuma uçlarından kırpılacaktır.</p>
        <p>
          FASTQ dosyalarında elde edilmiş olan DNA okuma bilgilerinin referans genoma
hizalanması için günümüzde en yaygın kabul görmüş hizalama aracı olan,
BurrowsWheeler Transform sıkıştırması ve Smith-Waterman algoritmasını kullanan
BurrowsWheeler Aligner (BWA) hizalayıcısının [
          <xref ref-type="bibr" rid="ref15">15</xref>
          ], her ne kadar 100 – 150 bazlık kısa
okumalar için ideal olsa da daha uzun olan Oxford Nanopore okumaları üzerinde de
yüksek performansla çalıştığı daha önce gösterilmiştir. Özellikle PacBio ve Oxford
Nanopore gibi uzun okumalar için tasarlanmış olan Minimap2 hizalayıcısının
doğruluk oranının BWA ile eşdeğer olduğu fakat dört kat daha hızlı çalıştığı da
yapılan çalışmalarda belirtilmiştir. Çalışmamızda FASTQ dosyalarındaki Oxford
Nanopore okumalarının referans genomla eşleşmesinin özellikle bu iki hizalayıcı ile
gerçekleştirilmesini planlanmaktayız. Ayrıca, GraphMap, MarginAlign gibi Oxford
Nanopore komünitesi içerisinde geliştirilen diğer hizalayacılar ile de performans ve
doğruluk oranı açısından karşılaştırmalar yapılacaktır.
        </p>
        <p>
          MinION verisinin en büyük handikapı şüphesiz ki hata oranının ikinci nesil
dizileme platformlarına göre daha yüksek olmasıdır [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ]. CFTR geni 17. ve 20.
ekzonlar arasında kalan bölge üzerinde Illumina NextSeq500 ve MinION tarafından
gerçekleştirilen dizileme verileri arasındaki fark Şekil 1’de gösterilmiştir. Referans
genoma hizalanmış DNA okumaları üzerinde bir hata doğrulaması (error-correction)
yapılması tutarlı analiz sonuçlarına ulaşabilmek için oldukça önemlidir. Bunun için
Saklı Markov Modeli (Hidden Markov Model) ve Yinelenen Sinir Ağı (Recurrent
Neural Network) algoritmaları kullanılarak okumalar üzerinde düzeltme çalışmaları
yapılacaktır. [
          <xref ref-type="bibr" rid="ref11 ref9">9, 11</xref>
          ].
        </p>
        <p>
          FASTQ dosyasında saklanan DNA okumaları referans genoma hizalandıktan
sonra, tüm hizalanan okumalar, referans genomun hangi bölgesiyle eşleştikleri
bilgisiyle birlikte SAM (Sequence Alignment Mapping) formatına kaydedilecektir
ama SAM dosyalarının boyutları yüksek olduğu için bu boyutu küçültmek ve daha
sonraki analiz aşamalarının daha hızlı gerçekleşebilmesi için bu dosyalar BAM
(Binary Alignment Mapping) formatına dönüştürülecektir [
          <xref ref-type="bibr" rid="ref16">16</xref>
          ]. Bu dönüşüm işlemi
için kabul görmüş araçlardan ikisi Samtools ve Picard paketlerinde mevcuttur [
          <xref ref-type="bibr" rid="ref17 ref18">17,
18</xref>
          ]. BAM formatına sıkıştırılmış DNA okumalarının görsel olarak incelenmesinin
Integrative Genomics Viewer (IGV) programı aracılığı ile yapılması planlanmaktadır
[
          <xref ref-type="bibr" rid="ref19">19</xref>
          ].
        </p>
        <p>
          Varyant çağırma (variant calling) aşaması, referans genoma hizalanmış
okumalardan varyantların çıkarılması için yapılan bir hesaplama işlemi olup işlem
sonucunda varyant bilgileri VCF (Variant Calling Format) [
          <xref ref-type="bibr" rid="ref20">20</xref>
          ] dosyalarına
kaydedilecektir. Analiz sürecindeki bu basamak için Oxford Nanopore komünitesi
içerisinde Nanopolish, Poreseq, MarginCaller gibi araçlar geliştirilmiştir. Bu araçların
farklı veri setleri için tek tek denenerek doğruluk ve performans açısından
karşılaştırmalarının yapılacaktır.
Şekil 1. CFTR geninin 17. ve 20. ekzonları arasındaki bölgesi için Illumina ve MinION
verilerinin karşılaştırılması. Üstte yer alana 8r.bam dosyasında Illumina okumaları, alttaki
cftr_29052018.bam dosyasında MinION okumaları yer almaktadır. MinION okumalarında çok
fazla sayıda artefakt mevcuttur.
        </p>
        <p>
          Tablo 2. Oxford Nanopore verilerinin analizi için kullanılabilecek biyoenformatik araçlardan
bazıları [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ].
        </p>
      </sec>
      <sec id="sec-2-3">
        <title>Biyoenformatik Araç</title>
        <p>BWA
Minimap2</p>
        <sec id="sec-2-3-1">
          <title>GraphMap MarginAligner LAST</title>
        </sec>
        <sec id="sec-2-3-2">
          <title>Albacore</title>
          <p>DeepNano
Poretools
Porechop
ALEC
NanoCORR
Nanocorrect
NanoOK
minION_QC
PoreSeq
Nanopolish
MarginCaller</p>
        </sec>
      </sec>
      <sec id="sec-2-4">
        <title>Uygulama Alanı</title>
        <p>Hizalama
Hizalama. Özellikle Nanopore ve PacBio için
geliştirildi.</p>
        <p>Hizalama. Uzun DNA okumalar için geliştirildi.</p>
        <p>Hizalama. Özellikle Nanopore için geliştirildi.</p>
        <p>Hizalama. Uzun DNA ve RNA okumaları için
geliştirildi.</p>
        <p>Baz çağırma.</p>
        <p>Baz çağırma.</p>
        <p>Baz çağırma, format dönüştürme, görselleştirme.</p>
        <p>Adaptör kırpma.</p>
        <p>Hata düzeltme.</p>
        <p>Hata düzeltme.</p>
        <p>Hata düzeltme.</p>
        <p>Hata düzeltme, kalite tayini
Kalite tayini
Hata düzeltme, varyant çağırma.</p>
        <p>Varyant çağırma.</p>
        <p>Varyant çağırma.</p>
        <p>Elde edilen varyant setlerinin klinik olarak yorumlanması için gerçekleştirilecek
anotasyon aşaması oldukça önemlidir. Bu aşama için biyoenformatik komünitesi
tarafından geliştirilmiş Variant Effect Predictor (VEP), Annovar, SnpEff gibi araçlar
mevcuttur. Bu araçlar Polyphen, SIFT, MutationTaster gibi tahmini patojenite skoru
veren veri tabanlarından skor bilgisini çekerken, ExAC, 1000 Genome gibi veri
tabanlarından da ilgili varyantın hangi populasyonlarda ne sıklıkla gözlendiğinin
bilgisini alıp VCF dosyalarına işleyebilmektedir. Ayrıca kanıta dayalı varyant
yorumlamasını da VCF dosyalarına ekleyebilmek için ClinVar veya Human Genome
Mutation Database (HGMD) gibi veri tabanlarının analiz sürecimize entegre edilmesi
de önceliklerimiz arasındadır.</p>
        <p>MinION platformundan elde edilecek verinin analizi için kullanılabilecek araçlar
Tablo 2’de, bu araçlar kullanılarak oluşturulacak analiz süreci süreç hakkında daha
önce anlattıklarımız doğrultusunda Şekil 2’de özetlenmiştir.</p>
        <p>Şekil 2. MinION platform çıktıları için dizayn edilen analiz akış şeması.
3</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Analiz Süreci İçin Bir Web Uygulaması</title>
      <p>Analiz sürecinde, MinION dizileme platformundan elde edilen verinin çeşitli
hesaplama aşamalarından geçerken farklı formatlara dönüştürülmesi gerekmektedir.
Bu işlemler karmaşık olduğundan dolayı yüksek bilgisayar gücüne ihtiyaç
duyulmaktadır. Farklı algoritmalarla tasarlanmış biyoenformatik araçları GPU veya
CPU temelli çalışabildiklerinden dolayı farklı konfigürasyonlardaki bilgisayarlarda
farklı performanslarla sonuç verebilmektedirler. Tüm bunlar analiz sürecini yerel bir
bilgisayar üzerinde yavaşlatabilen etkenlerdir. Çalışmamızda, bu sebeplerden dolayı
analiz sürecinin bulut tabanlı bir platform üzerinde hızlı ve güvenli bir şekilde
yürütülmesi hedeflenmektedir.</p>
      <p>MinION verileri için optimize edeceğimiz analiz sürecinin otomatize hale
getirilmesi ve sadece tek tuşla uzaktan tüm bu sürecin bulut üzerinde çalıştırılıp hızlı
bir şekilde sonuç alınabilmesi hedeflerimiz arasındadır. Bunun için veri analizi süreci
bir bulut sistemi üzerinde yürütülecek, analiz sürecinin kontrolü ve son anote edilmiş
varyant listesinin filtrelenmesi işlemi bu uygulama üzerinde gerçekleştirilecektir.
Kişiye özel genetik verinin korunaklı bir şekilde saklanması oldukça önemli bir konu
olduğundan dolayı verilerin bulutta güvenli bir şekilde saklanması sağlanacaktır. İlgili
verilere erişim hakkı olan kullanıcılar dışında kimse herhangi bir veriyi gözlemleme
veya yerel bir bilgisayar ağına indirme gibi eylemlerde bulunamayacaktır. Bunun
sağlanabilmesi için her kullanıcı hesabı üzerinde farklı kullanıcı seviyeleri
oluşturulacak ve sızma testleri ile analiz platformunun güvenliği test edilecektir.</p>
      <p>Şekil 3. MinION Veri Analizi Uygulaması için Sistem mimarisi</p>
      <p>Geliştirmeyi amaçladığımız sistem, MinION ham verisinin laboratuvardan web
uygulamasına yüklenmesi, bu ham verinin otomatik bir şekilde analiz sürecine
sokulup son varyant listesinin elde edilmesi ve bu listenin daha sonra tıbbi genetik
uzmanları veya patologlar tarafından bir grafik kullanıcı arayüzü aracılığı ile
incelenmesini kapsamaktadır. Bu sistemde kullanıcının yaşayabileceği en önemli
problemlerden birisi verinin analiz platformuna yüklenmesi olarak karşımıza
çıkmaktadır. MinION verisi her ne kadar bir tüm ekzom veya tüm genom verisi kadar
büyük olmasa da, 10 GB’lık bir verinin bir sunucuya yüklenmesi yerel internet
bağlantısının performansına göre kullanıcı açısından zorluklar yaşatabilmektedir.
Bunun için farklı opsiyonlarda çözüm geliştirilecek fakat en önemlisi masaüstü bir
yükleme uygulaması tasarlamak olacaktır.</p>
      <p>Analiz sürecindeki diğer bir zorluk, hesaplamaların ne kadar sürede
tamamlanacağıdır. Yoğun hasta sayısına sahip merkezlerde yavaş süren analiz
süreçleri raporlamalarda birikmeye sebep olabilmektedir. Bu da verinin analiz
platformuna yüklendikten sonra işlemin olabilecek en kısa sürede tamamlanmasını
gerektirmektedir. Bulut tabanlı platform üzerinde her biyoenformatik araç kendi
ihtiyacı olan konfigürasyonlardaki bilgisayar birimlerinde çalıştırabilmektedir. Bu da
analiz aşamasının daha hızlı, daha verimli ve daha az maliyetle tamamlanabilmesine
olanak sağlamaktadır. Verinin analiz platformuna yüklenmesinden sonuçların
kullanıcıya kadar erişmesine kadar geçen süreç bir iş akışı şeklinde Şekil 3’te
verilmiştir.</p>
      <p>Analiz sürecinin kolaylıkla kontrol edilebilmesi için kullanıcı dostu, basit ama
etkili bir grafik kullanıcı arayüzü oluşturulması amacıyla tasarımlara başlanacaktır.
Kullanıcı ilk girdi datasını FAST5 veya FASTQ olarak web uygulamasına
yükledikten sonra ilgili veriyi analiz bitiminde bir varyant listesi olarak analiz
platformu üzerinde görüntüleyebilecek ve çeşitli kriterlere göre filtreleyebilecektir.
4</p>
    </sec>
    <sec id="sec-4">
      <title>Sonuç</title>
      <p>Yeni nesil dizileme sistemleri genomik alanda yapılan çalışmalara hız katmış ve
nükleotit başına dizileme maliyetini önemli ölçüde düşürmüştür. Artık çok daha kısa
sürede çok daha fazla genom bölgesi dizilenebilmekte ve çeşitli hastalıklara çok daha
hızlı bir şekilde tanı koyulabilmektedir. Bu sistemler her ne kadar büyük bir avantaj
sağlamış olsalar da eksik yönleri hala mevcuttur ve bu eksiklikler sürekli yeni
yaklaşımlarla silinmeye çalışılmaktadır. Çalışmamız kapsamında da bu şekilde yeni
yaklaşımlarla üretilmiş bir sistem kullanılarak veri analizi süreci optimize ve
otomatize hale getirilecektir. Oxford Nanopore platformlarının dünyada kullanım
oranı artmaya başlamış olmasına rağmen bu cihazlardan çıkan verinin analizi için
henüz bir standart oluşmamıştır. Bizim oluşturmayı hedeflediğimiz sistem, hem
ülkemizde hem de dünyada Oxford Nanopore verisini bulut üzerinde FAST5
formatından klinik rapora kadar götürmesiyle bir ilk olacak ve ülkemizde de tek
molekül dizilemesi verisi üzerine bir uzmanlık alanı yaratacaktır.</p>
      <p>Analiz sürecinde, MinION dizileme platformundan elde edilen verinin çeşitli
hesaplama aşamalarından geçerken farklı formatlara dönüştürülmesi gerekmektedir.
Bunun için kullanılan farklı algoritmalarla tasarlanmış biyoenformatik araçları GPU
veya CPU temelli çalışabildiklerinden dolayı farklı konfigürasyonlardaki
bilgisayarlarda farklı performanslarla sonuç verebilmektedirler. Tüm bunlar analiz
sürecini yerel bir bilgisayar üzerinde yavaşlatabilen etkenlerdir. Çalışmamızda, bu
sebeplerden dolayı analiz sürecinin bulut tabanlı bir platform üzerinde hızlı ve güvenli
bir şekilde yürütülmesi hedeflenmektedir. Önerdiğimiz çözümün bulut tabanlı bir
sistem olmasının diğer önemli sebebi de yapılacak analizlerin ölçeklendirilebilir
olmasıdır. Ayrıca, her analiz ve her analiz sürecine dahil olan her bir biyoenformatik
aracın buluttaki farklı makineler üzerinde (kendi ihtiyacı olan konfigürasyonlardaki
bilgisayar birimlerinde) çalıştırılabilecek olması analiz sürecinin ölçeklendirilmesini
düşük maliyetle sağlayabilecektir.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Lander</surname>
            <given-names>E. S.</given-names>
          </string-name>
          , et al. (
          <year>2001</year>
          )
          <article-title>Initial sequencing and analysis of the human genome</article-title>
          .
          <source>Nature</source>
          <volume>409</volume>
          :
          <fpage>860</fpage>
          -
          <lpage>921</lpage>
          (
          <year>2001</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Venter</surname>
            <given-names>J. C.</given-names>
          </string-name>
          , et al.
          <article-title>The sequence of the human genome</article-title>
          .
          <source>Science</source>
          <volume>291</volume>
          :
          <fpage>1304</fpage>
          -
          <lpage>1351</lpage>
          (
          <year>2001</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Sanger</surname>
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Coulson</surname>
            <given-names>A.R.</given-names>
          </string-name>
          <article-title>A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase</article-title>
          .
          <source>J Mol Biol</source>
          .
          <year>1975</year>
          ;
          <volume>94</volume>
          :
          <fpage>441</fpage>
          -
          <lpage>8</lpage>
          (
          <year>1975</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Sanger</surname>
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nicklen</surname>
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Coulson</surname>
            <given-names>A.R.</given-names>
          </string-name>
          <article-title>DNA sequencing with chainterminating inhibitors</article-title>
          .
          <source>Proc Natl Acad Sci USA</source>
          .
          <volume>74</volume>
          :
          <fpage>5463</fpage>
          -
          <lpage>7</lpage>
          (
          <year>1977</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>National</surname>
          </string-name>
          Human Genome Research Institute.
          <article-title>The Human Genome Project completion: Frequently Asked Questions</article-title>
          . https://www.genome.gov/11006943, last accessed:
          <year>2018</year>
          /06/13.
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>van Dijk</surname>
            <given-names>E.L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Auger</surname>
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Jaszczyszyn</surname>
            <given-names>Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Thermes</surname>
            <given-names>C</given-names>
          </string-name>
          .
          <article-title>Ten years of next-generation sequencing technology</article-title>
          .
          <source>Trends Genet</source>
          .
          <volume>30</volume>
          :
          <fpage>418</fpage>
          -
          <lpage>426</lpage>
          (
          <year>2014</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>Robinson</surname>
            <given-names>P. N.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Piro</surname>
            <given-names>R. M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Jager</surname>
            <given-names>M. Computational</given-names>
          </string-name>
          <string-name>
            <surname>Exome</surname>
            and
            <given-names>Genome</given-names>
          </string-name>
          <string-name>
            <surname>Analysis</surname>
          </string-name>
          . Chapman &amp; Hall/CRC, Oxfordshire, UK (
          <year>2018</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <surname>Illumina</surname>
          </string-name>
          .
          <article-title>Scalability for sequencing like never before: NovaSeq System Specifications</article-title>
          . https://www.illumina.com/systems/sequencing-platforms/novaseq/specifications.html, last accessed:
          <year>2018</year>
          /06/13.
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Minervini</surname>
            <given-names>C.F.</given-names>
          </string-name>
          , et al.
          <article-title>TP53 gene mutation analysis in chronic lymphocytic leukemia by nanopore MinION sequencing</article-title>
          .
          <source>Diagn Pathol</source>
          .
          <volume>11</volume>
          :
          <issue>96</issue>
          (
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10.
          <string-name>
            <surname>Lu</surname>
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Giordano</surname>
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ning</surname>
            <given-names>Z</given-names>
          </string-name>
          .
          <article-title>Oxford nanopore MinION sequencing and genome assembly</article-title>
          .
          <source>Genom. Proteom. Bioinform</source>
          .
          <volume>14</volume>
          :
          <fpage>265</fpage>
          -
          <lpage>279</lpage>
          (
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <surname>Jain</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Olsen</surname>
            <given-names>H.E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Paten</surname>
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Akeson</surname>
            <given-names>M.</given-names>
          </string-name>
          <article-title>The Oxford Nanopore MinION: delivery of nanopore sequencing to the genomics community</article-title>
          .
          <source>Genome Biol</source>
          .
          <volume>17</volume>
          (
          <issue>1</issue>
          ):
          <volume>239</volume>
          (
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Richard</surname>
            <given-names>M. L.</given-names>
          </string-name>
          and
          <string-name>
            <surname>Matthew D. C.</surname>
          </string-name>
          <article-title>A world of opportunities with nanopore sequencing</article-title>
          .
          <source>Journal of Experimental Botany</source>
          , Vol.
          <volume>68</volume>
          , No. 20 pp.
          <fpage>5419</fpage>
          -
          <lpage>5429</lpage>
          , (
          <year>2017</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <source>HDF5 File Format Specification Version 3</source>
          .0. https://support.hdfgroup.org/HDF5/doc/H5.format.html, last accessed:
          <year>2018</year>
          /06/13
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14.
          <string-name>
            <surname>Cock P.J.</surname>
          </string-name>
          , et al.
          <article-title>The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants</article-title>
          .
          <source>Nucleic Acids Res</source>
          . Apr;
          <volume>38</volume>
          (
          <issue>6</issue>
          ):
          <fpage>1767</fpage>
          -
          <lpage>71</lpage>
          (
          <year>2010</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15.
          <string-name>
            <surname>Li</surname>
            <given-names>H.</given-names>
          </string-name>
          and
          <article-title>Durbin R. Fast and accurate short read alignment with Burrows-Wheeler Transform</article-title>
          . Bioinformatics,
          <volume>25</volume>
          :
          <fpage>1754</fpage>
          -
          <lpage>60</lpage>
          (
          <year>2009</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          16.
          <string-name>
            <surname>The</surname>
            <given-names>SAM</given-names>
          </string-name>
          /BAM Format Specification Working Group. Sequence Alignment/Map Format Specification. https://github.com/samtools/hts-specs/blob/master/SAMv1.pdf,
          <source>last revised: 2018/05/22</source>
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          17.
          <string-name>
            <surname>Li</surname>
            <given-names>H.</given-names>
          </string-name>
          , et al.
          <article-title>The Sequence Alignment/Map format and SAMtools</article-title>
          . Bioinformatics.
          <volume>25</volume>
          (
          <issue>16</issue>
          ):
          <fpage>2078</fpage>
          -
          <lpage>9</lpage>
          (
          <year>2009</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          18. Broad Institute. “Picard Tools.” Broad Institute,
          <article-title>GitHub repository</article-title>
          . http://broadinstitute.github.io/picard/, last accessed:
          <year>2018</year>
          /06/13; version 2.18.7.
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          19.
          <string-name>
            <surname>Helga</surname>
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>James</surname>
            <given-names>T. R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Jill</surname>
            <given-names>P.</given-names>
          </string-name>
          <string-name>
            <surname>Mesirov. Integrative Genomics</surname>
          </string-name>
          <article-title>Viewer (IGV): highperformance genomics data visualization and exploration</article-title>
          .
          <source>Briefings in Bioinformatics 14</source>
          ,
          <fpage>178</fpage>
          -
          <lpage>192</lpage>
          (
          <year>2013</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          20.
          <article-title>The Variant Call Format (VCF) Version 4</article-title>
          .2 Specification. https://github.com/samtools/hts-specs/blob/master/VCFv4.2.pdf,
          <source>last revised:</source>
          <year>2017</year>
          /09/25.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>