Back to IF3211 Komputasi Domain Spesifik

Genome Sequencing Technologies and Bioinformatics Foundations

Questions/Cues

  • Mengapa pendekatan whole‑genome shotgun dipilih?
  • Bagaimana algoritma perakitan menggabungkan fragmen pendek?
  • Apa perbedaan utama antara data high‑throughput dan Sanger?
  • Bagaimana basis data genom memfasilitasi analisis komparatif?
  • Apa tantangan utama dalam analisis metagenom?

Reference Points

  • Lecture_18_Genomics.pptx (Slides 31‑34, 36‑41)
  • Human_Genome_Project_Summary.pdf (Pages 2‑5)
  • Sequencing_Technology_Review.pdf (Pages 12‑19)

Teknologi Sequensing Generasi Pertama vs. Generasi Kedua

Pada akhir abad ke‑20, metode Sanger masih menjadi standar “gold‑standard” untuk penentuan urutan DNA. Metode ini menggunakan terminator dideoksinukleotida yang menghentikan sintesis pada tiap basa, menghasilkan fragmen dengan panjang berbeda yang kemudian dipisahkan melalui elektroforesis kapiler. Meskipun akurasinya tinggi (≈99,99 %), prosesnya lambat, mahal, dan hanya dapat menghasilkan sekitar 800 bp per reaksi. Karena keterbatasan tersebut, proyek Human Genome Project (1990‑2003) menggabungkan Sanger dengan strategi whole‑genome shotgun (WGS), di mana seluruh genom dibagi menjadi fragmen acak (biasanya 2‑10 kb) yang kemudian di‑clone dan di‑sequencing secara paralel.

Generasi kedua (NGS – Next‑Generation Sequencing) mengubah paradigma dengan memproduksi jutaan hingga miliaran read pendek (35‑300 bp) secara bersamaan pada satu aliran (flow cell). Platform Illumina, misalnya, menggunakan sintesis berbasis reversible terminator, memungkinkan deteksi fluoresen pada tiap siklus penambahan basa. Keunggulan utama NGS meliputi throughput tinggi (gigabase per run), biaya per basis turun drastis, serta kemampuan untuk memproses banyak sampel secara multiplex. Namun, read pendek menimbulkan tantangan dalam perakitan, terutama pada wilayah berulang atau kaya GC.

Teknologi generasi ketiga (PacBio SMRT, Oxford Nanopore) memperkenalkan read panjang (ratusan kilobasa hingga megabasa). Meskipun tingkat kesalahan mentahnya lebih tinggi (≈10‑15 %), kesalahan dapat dikurangi melalui konsensus berulang (circular consensus sequencing) atau perbaikan hybrid dengan data NGS. Read panjang mempermudah perakitan kontig panjang, mengidentifikasi struktur variasi besar (inversi, translokasi), serta menyelesaikan wilayah repetitif yang sebelumnya tidak dapat diurai.

Secara keseluruhan, evolusi teknologi sequencing mencerminkan trade‑off antara akurasi, panjang read, dan throughput; pemilihan platform harus disesuaikan dengan tujuan riset (misalnya, resequencing populasi vs. de‑novo assembly).

Proses Perakitan (Assembly) Genom

Perakitan genom adalah langkah krusial yang mengubah ribuan hingga jutaan read pendek menjadi satu urutan kontinu (contig). Dua pendekatan utama digunakan: de Bruijn graph dan overlap‑layout‑consensus (OLC). Pada de Bruijn graph, setiap read di‑split menjadi k‑mer (potongan sepanjang k). Node graph merepresentasikan k‑mer unik, sementara edge menghubungkan k‑mer yang berurutan dalam read. Traversal graph menghasilkan jalur yang merekonstruksi urutan asli. Kelebihan metode ini terletak pada efisiensi memori untuk data NGS, tetapi sensitif terhadap pilihan nilai k; nilai k terlalu kecil meningkatkan ambiguitas, nilai k terlalu besar memecah graph pada wilayah dengan coverage rendah.

OLC, yang lebih umum pada data read panjang, memulai dengan menemukan pasangan read yang tumpang tindih (overlap) menggunakan algoritma seperti MinHash atau seed‑and‑extend. Setelah overlap teridentifikasi, layout dibangun untuk menentukan urutan relatif read, dan konsensus akhir dihasilkan untuk memperbaiki kesalahan. Karena memerlukan perbandingan semua‑versus‑semua, OLC menuntut sumber komputasi yang besar, tetapi menghasilkan contig yang lebih panjang dan akurat pada data long‑read.

Setelah perakitan kontig, proses scaffolding menghubungkan kontig menjadi scaffold menggunakan informasi jarak (paired‑end, mate‑pair, atau data Hi‑C). Akhirnya, gap‑filling dan polishing (misalnya Pilon, Racon) memperbaiki basis yang salah serta menutup celah. Hasil akhir biasanya berupa assembly dengan statistik N50 (panjang contig di mana 50 % total panjang assembly berada pada atau di atas nilai tersebut) yang menjadi indikator kualitas.

Basis Data Genom dan Analisis Bioinformatika

Data hasil sequencing tidak berguna tanpa infrastruktur penyimpanan, anotasi, dan distribusi. GenBank, ENA, dan DDBJ merupakan repositori publik yang menyimpan urutan lengkap beserta metadata (organisme, metode sequencing, kualitas). Pada skala proyek besar, konsorsium seperti 1000 Genomes Project atau TCGA menyediakan dataset yang telah diproses (variant call format, expression matrices) serta platform visualisasi (UCSC Genome Browser, Ensembl).

Analisis bioinformatika dimulai dengan quality control (FastQC, MultiQC) untuk menilai kualitas base‑calling, adaptor, dan distribusi kualitas. Selanjutnya, aligner (BWA‑MEM, Bowtie2) memetakan read ke referensi, menghasilkan file BAM yang dapat diproses lebih lanjut. Variant calling (GATK, FreeBayes) mengidentifikasi SNP, indel, dan varian struktural, sementara annotation (SnpEff, VEP) menambahkan informasi fungsional (konsekuensi pada gen, prediksi patogenisitas).

Pada studi metagenomik, pendekatan taxonomic profiling (Kraken2, MetaPhlAn) dan assembly metagenomik (MEGAHIT, metaSPAdes) memungkinkan identifikasi mikroorganisme serta rekonstruksi genom mikroba (MAGs). Analisis downstream mencakup pangenome (Roary, Panaroo) untuk menilai variasi genetik antar strain, serta gene ontology atau pathway enrichment (KEGG, GO) untuk menafsirkan fungsi biologis.

Dengan meningkatnya kemampuan sequencing, muncul isu‑isu etika terkait privasi data genomik manusia. Regulasi seperti GDPR (EU) dan HIPAA (AS) mengatur penyimpanan dan berbagi data pribadi, menuntut de‑identifikasi yang ketat serta persetujuan informatif (informed consent). Selain itu, data sharing dalam format standar (FASTA, FASTQ, BAM/CRAM, VCF) dan penggunaan workflow management system (Snakemake, Nextflow, CWL) meningkatkan reproducibility penelitian. Repositori kode (GitHub, GitLab) dan lingkungan kontainer (Docker, Singularity) memudahkan replikasi analisis pada platform komputasi yang berbeda.

Aplikasi Praktis Sequensing dan Bioinformatika

  • Diagnostik klinis: NGS panel genetik untuk kanker, penyakit langka, serta tes non‑invasive prenatal testing (NIPT) berbasis cfDNA.
  • Pertanian: Pemetaan genomik tanaman (misalnya jagung, padi) untuk marker‑assisted selection dan rekayasa genetik.
  • Mikrobiologi lingkungan: Metagenomik laut dan tanah untuk menemukan enzim industri baru atau memantau resistensi antibiotik.
  • Evolusi dan filogenetika: Analisis whole‑genome alignment (Mauve, progressiveCactus) untuk merekonstruksi pohon filogenetik dengan resolusi tinggi.

Setiap aplikasi menuntut penyesuaian pipeline, pemilihan platform sequencing, serta interpretasi hasil yang mempertimbangkan konteks biologis dan klinis.

Summary

Sequencing generasi kedua (NGS) dan ketiga (long‑read) telah mengubah cara ilmuwan memperoleh data genomik, menyeimbangkan antara throughput tinggi, biaya rendah, dan kemampuan membaca wilayah kompleks. Proses perakitan mengandalkan struktur graf (de Bruijn atau OLC) dan teknik scaffolding untuk menghasilkan assembly berkualitas, yang selanjutnya dianalisis melalui pipeline bioinformatika—dari kontrol kualitas hingga anotasi varian. Penyimpanan dan distribusi data melalui basis data publik serta standar format memastikan reproducibility dan kolaborasi global, sementara pertimbangan etika dan privasi menjadi semakin penting dalam aplikasi klinis dan populasi.