Ön Bilgi

Proje kapsamında 46 farklı RNA numunesinin tüm transkriptom profilinin çıkarılması hedeflenmiştir. Bu amaçla yeni nesil dizileme uygulaması gerçekleştirilmiştir.

Yöntem

Biyoinformatik Analiz

Okuma işlemi sonrasında, elde edilen verilerin kalite kontrolü amacıyla FASTQC aracı (Babraham Bioinformatics, USA, http://www.bioinformatics.babraham.ac.uk) kullanılmıştır. Dizileme sürecinde, ham okuma verilerindeki düşük kalitedeki baz okumaları ve olası adaptör-indeks kontaminasyonlarının sonraki analiz basamaklarında sapmalara neden olmaması için, okumalardan kırpılmıştır. Kalite değerlerine göre kırpma işlemleri için Trimmomatic aracı (Bolger et al., 2014, http://www.usadellab.org/cms/?page=trimmomatic) kullanılmıştır. Kırpma sonrası hizalama işleminde HISAT2 aracından (Cole et al., https://ccb.jhu.edu/software/tophat/index.shtml) yararlanılmıştır. Bu uygulamada referans genom olarak ilgili organizmanın güncel referans genomu (Homo Sapiens hg38) kullanılmıştır. Hizalama sonrası anotasyonunda gen, ekzon ve transkript bilgileri için Ensembl veriseti kullanılmıştır. Hizalama sonrasında her bir transkript üzerindeki okuma sayıları hesaplanmış ve ardından toplam okuma sayısına göre normalize edilmiştir. Transkriptom elemanlarına yönelik okuma sayılarının belirlenmesinde Subread aracı (Liao Y, et al., http://subread.sourceforge.net) kullanılmıştır. Gen başı okuma sayılarının normalizasyonu ve filtrelenmesi için R:edgeR (Robinson, McCarthy, ve Smyth 2010) aracı; gruplar arası anlatımı değişen genleri (Differentially Expressed Genes) belirlemek için R::limma aracı (Ritchie et al. 2015) kullanılmıştır. Grup içi ve gruplar arası istatistiksel karşılaştırma çalışmaları, veri görselleştirme uygulamalarında R betikleri kullanılmıştır.

Veri İşleme

Örnek Grupları

Çalışma kapsamında 46 farklı numunenin transkriptom dizilemesi gerçekleştirilmiştir. Aşağıdaki tabloda, ilgili örneklerin adları, deney grupları, genom hizalama sonrası okuma sayıları paylaşılmıştır. Assigned genoma hizalanan ikili okumaların sayısını; Unassigned genoma hizalanmayan ikili okumaların sayısını; Multimapping birden fazla bölgeye hizalanan ikili okumaların sayısını, NoFeatures genom üzerinde transkriptom dışı elamanlara hizalanan ikili okumaların sayısını ve Ambiguity birden fazla transkriptom elemanına hizalanan ikili okumaların sayısını belirtmektedir

Filtreleme ve Normalizasyon

Genom hizalama ve transkriptom elemanlarının belirlenmesi sonrasında, her bir transkriptom elemanına (feature) kaç adet okuma düştüğü hesaplanır. Her bir gen ve eleman için okuma sayılarını içeren bu veri seti, ekspresyon gösteren ve göstermeyen genlerin bir karışımını içermektedir. Bu karışım içerisinde bazı genler, örneklerin büyük bir kısmında çok düşük oranda ekspresyona sahip olabilir veya hiç ekspresyon göstermeyebilir. İleri analizleri etkilememesi amacıyla bu veriler, veri setinden çıkarılmaktadır.

Ayrıca, numune hazırlama veya dizileme işlemi sırasında, numune ile doğrudan biyolojik ilişkisi olmayan dış faktörler, numunelerde tespit edilen ekspresyonun değerlerini etkileyebilir. Örneğin, bir deneyin ilk partisinde işlenen numuneler, ikinci bir partide işlenen numunelere kıyasla toplamda daha yüksek bir ekspresyona sahip olabilir. Analizlerde, tüm numunelerin benzer aralık ve ekspresyon değer dağılımına sahip olması gerektiği varsayılmaktadır. Bu sebeple, her numunenin ekspresyon dağılımlarının tüm deney boyunca benzer olmasını sağlamak için normalleştirme gerçekleştirilmektedir. Aağıdaki figürde ham verilerde ve normalize edilmiş verilerdeki CPM (counts per million) dağılımları gösterilmiştir. Takip eden analizler, normalize veriler üzerinden gerçekleştirilmiştir.

Analiz Sonuçları

Kümeleme

Numuneler arasında gen ekspresyon analizine yönelik profil benzerliklerin en iyi anlaşılmasını sağlayan yaklaşımlardan biri, çok boyutlu ölçekleme (Multidimensional scaling, MDS) veya Principal Component Analysis (PCA) grafiğidir. Grafik, numuneler arasında önbilgi olmadan (unsupervised) benzerlikler ve farklılıkların görselleştirilmesini sağlar. Böylece ileri analizler gerçekleştirilmeden önce diferansiyel ekspresyonun ne ölçüde tespit edilebileceği hakkında fikir sahibi olabilir. İdeal olarak, numuneler ana gruplarına göre (kontrol ve deney grupları gibi) birlikte kümelenir ve gruplardan uzaklaşan herhangi bir numune (outlier) tanımlanabilir. Buna bağlı olarak hata kaynakları veya ekstra varyasyon içeren numuneler tespit edilebilir. Varsa, teknik kopyalar birbirine çok yakın olmalıdır.

Aşağıdaki ısı grafiği, ekspresyon açısından en fazla farklılık gösteren 50 genin karşılaştırma yapılan gruplardaki ekspresyonlarını göstermektedir. Grafikte yer alan genlerin tamamı istatistiksel açıdan anlamlı olmayabilir.

Aşağıdaki dendrogramda, örneklerin hiyerarşik kümelendirme analizleri görselleştirilmiştir. Normalize okumalar esas alınarak örnekler arası euclidean mesafe ölçülmüştür ve ardından ward.D2 metodu ile kümeleştirme gerçekleştirilmiştir.

Diferansiyel Ekspresyon Analizi

Diferansiyel ekspresyon analizi, normalleştirilmiş okuma sayısı verilerinin belirlenmesi ve deney grupları arasındaki ekspresyon seviyelerinde kantitatif değişiklikleri tespit edilmesi için kullanılır. Örneğin, belirli bir gen için okuma sayılarında gözlenen bir farkın önemli olup olmadığına, yani sadece doğal rastgele varyasyondan beklenenden daha büyük olup olmadığına karar vermek için Diferansiyel Ekspresyon Analizi kullanılır. Aşağıdaki başlıklarda, gerçekleştirilen karşılaştırma gruplarına göre ekspresyonu artış veya azalış gösteren genler listelenmiştir.

Seçilen gruplar arasında yapılan karşılaştırma sonrasında anlamlı ekspresyon artışı veya kaybı gösteren genlerin sayıları aşağıdaki görselde sunulmuştur.

Aşağıdaki tablolarda, grup karşılaştırması sonucunda istatistiksel olarak anlamlı farklılık gösteren genler FDR değerlerine göre listelenmiştir. Tabloda yer alan logFC değeri, genin birinci gruba kıyasla ikinci grupta kaç katlık bir değişim olduğunu; PValue gerçekleştirilen istatistiksel analiz sonrası P değerini, FDR False Discovery Rate değerini ifade etmektedir. P ve FDR değerleri 5. basamağa kadar yuvarlatılmıştır. Tam değerlere tabloların altındaki butonlardan erişebilirsiniz.

Brain - Lung

Brain - Lung grupları arasında yapılan analize göre 5981 adet gende ekspresyon artışı; 5568 adet gende ekspresyon düşüşü tespit edilmiştir.

Aşağıdaki grafikte, tüm genlerin logFC ve FDR değerlerine göre dağılımları gösterilmektedir. Kırmızı ile gösterilen genler, iki grup arasında istatistiksel olarak anlamlı genleri ifade etmektedir.

Aşağıdaki görsellerde, en fazla anlamlı değişiklik gösteren (en düşük FDR) 5 genin normalize edilmiş okuma değerlerine göre dağılımları gösterilmektedir.

Brain - HL60

Brain - HL60 grupları arasında yapılan analize göre 7404 adet gende ekspresyon artışı; 4537 adet gende ekspresyon düşüşü tespit edilmiştir.

Aşağıdaki görsellerde, en fazla anlamlı değişiklik gösteren (en düşük FDR) 5 genin normalize edilmiş okuma değerlerine göre dağılımları gösterilmektedir.

Gen Ontoloji Analizi

Gen Ontoloji (GO) analizi, genlerin fonksiyonel özelliklerine bağlı olarak önceden tanımlanmış terim veya gruplara atandığı ve Gen Ontolojisi sınıflandırma sistemini kullanan bir yorumlama yöntemidir. Bir deneyde, altta yatan biyolojik süreçleri daha iyi anlamak için genellikle bu gen gruplarının işlevsel bir profilini almak için kullanılır. GO analizinde R::TopGO paketi ve Kolmogorov-Smirnov (KS) istatistiksel testi kullanılmıştır.

Aşağıdaki grafikte, artış ve azalış profili gösteren ve en anlamlı değişikliğe sahip 10 gen ontolojisi istatistiksel anlamlılık değerine göre görselleştirilmiştir.

Yolak Analizi

Yolak analizi, bir moleküler yolak içinde yer alan proteinleri kodlayan genlerin ekspresyonunun, deney ve kontrol grupları arasında istatistiksel olarak anlamlı farklılık gösterip göstermediğinin testini sağlar. Buna bağlı olarak, bir yolaktaki gen ekspresyonundaki değişiklikleri inceleyerek biyolojik gruplar arasındaki fenotip farklılıklarının nedenleri araştırılabilir.

Gerçekleştirilen analizde, bu amaçla KEGG PATHWAY yolak veritabanı (https://www.kegg.jp) kullanılmıştır. Yolaklar, barındırdıkları gen sayısına göre istatistiksel olarak test edilmiştir. Analizlerde clusterProfiler::enrichKEGG paketi kullanılmıştır. Tablolardaki ID ve Pathway, yolağın KEGG KEGG kodunu ve adını, GeneRatio yolakta bulunan genlerden kaçının ilgili yolakta bulunduğunu, P_Val p değerlerini, Adj_P_Val p değerinin Benjamini-Hochberg düzeltmesini, GeneID ise ilgili yolakta tespit edilen genleri ifade eder.

Transkriptom Analiz Raporu

2022-04-03