Blog AWS Indonesia
Menganalisa Data Google Analytics dengan Upsolver, Amazon Athena, dan Amazon Quicksight
Pada artikel ini, kami memberikan solusi untuk menganalisa data Google Analytics menggunakan Amazon Athena. Kami lampirkan referensi arsitektur yang dibangun atas data hit-level dari Google Analytics ke Amazon S3, melakukan penggabungan dan transformasi, lalu melakukan data visualisasi menggunakan Amazon Athena dan Amazon Quicksight. Upsolver digunakan untuk membantu pelanggan memulai dengan segera dalam otomatisasi dan orkestrasi danau data (data lake).
Google Analytics adalah solusi populer yang digunakan organisasi untuk dapat mengerti performa dari aplikasi web mereka. Data Google Analytics dikumpulkan dan diagregasi untuk membantu pengguna mendapatkan wawasan dengan cepat. Hal ini bekerja dengan sangat baik untuk analitik sederhana, tetapi tidak begitu ideal sewaktu anda ingin menggabungkan data Google Analytics dengan dataset lainnya untuk menghasilkan sebuah pandangan luas mengenai perjalanan pelanggan.
Kenapa menganalisa data Google Analytics di AWS?
Google Analytics telah menjadi standar de-facto sebagai alat analitik web dengan menawarkan analisa, pelacakan, dan pelaporan gratis untuk volume data yang lebih rendah; membantu pengguna non-teknis untuk mengerti performa sebuah situs web dengan menjawab pertanyaan-pertanyaan seperti: Dari mana para pengguna datang? Halaman apa dengan tingkat konversi paling tinggi? Di manakah pengguna mendapatkan halangan dan meninggalkan keranjang belanja mereka?
Walau pertanyaan-pertanyaan ini dijawab dalam Google Analitics UI, namun ada beberapa batasan, seperti:
- Pengambilan Sampel Data: Google Analytics edisi standar hanya menampilkan sampel data pada suatu jangka waktu disaat sesinya melebihi 500.000. Situs web besar dapat dengan mudah melebihi batasan ini dalam hitungan minggu, bahkan dalam hitungan hari. Hal ini dapat membuat masalah dalam keandalan laporan yang dihasilkan, karena setiap query data bisa diambil dari sampel data yang berbeda.
- Hambatan integrasi dengan layanan AWS: Banyak pelanggan sudah atau sedang dalam proses membangun platform data mereka di AWS. Mereka ingin menggabungkan AWS Analytics dan kemampuan pembelajaran mesin-nya dengan data Google Analytics untuk mendapatkan wawasan-wawasan yang baru dan inovatif.
- Penggabungan dengan sumber-sumber data dari luar: Untuk dapat melihat gambar keseluruhan dari bisnis online, kadangkala dibutuhkan peggabungan dari data trafik web dengan data-data lainnya. Google Analytics tidak menawarkan cara yang mudah untuk pengambilan atau penyimpanan data mentah dari sistem mereka. Google Analytics edisi standar hanya menyediakan 20 dimensi khusus untuk hal ini, dan penggunaannya sulit.
- Analisa Multi-dimensi: API khusus dan Laporan khusus Google Analytics hanya menyediakan 7 dimensi untuk setiap kueri-nya. Hal ini menjadi hambatan dalam melakukan analisa data yang mendalam, sehingga dibutuhkan macam-macam solusi lainnya untuk bisa mencacah data dan analisa.
- Kurangnya Alternatif: Google Analytics 360 yang memberikan fungsi untuk memindahkan data mentah ke Google BigQuery membutuhkan biaya tahunan yang lumayan besar. Hal ini bisa menjadi hambatan buat organisasi; dan walau demikian hal ini hanya bisa integrasi dengan BigQuery, yang artinya banyak pengguna yang tidak bisa menggunakan stack AWS mereka yang sudah ada.
Membangun atau membeli solusi analitik web baru (termasuk pelacakan berbasis cookie) membutuhkan biaya yang mahal dan bisa mengganggu alur kerja operasional yang tergantung pada data Google Analytics.
Pelanggan mencari solusi yang memungkinkan analis dan pengguna bisnis untuk menggabungkan data Google Analytics ke dalam alur kerja yang sudah ada menggunakan layanan AWS.
Memindahkan data Google Analytics ke AWS: Mendefinisikan kebutuhan
Untuk memberikan solusi analitik dengan tingkat laporan yang sama atau lebih dari Google Analytics, maka kami mengacu pada prinsip-prinsip di bawah ini dalam rancangan solusi kami:
- Analitik dengan hambatan teknis yang rendah untuk masuk: Google Analytics dibuat untuk pengguna bisnis dan solusi kami dirancang untuk pengguna yang sama dengan pengalaman yang mirip. Artinya lebih dari sekedar menelan data, kami mau melakukan otomatisasi rekayasa data agar siap untuk analisa. Hal ini termasuk retensi data, partisi data, dan kompresi. Semua hal ini harus dibelakang layar dan tidak terlihat oleh pengguna yang melakukan kueri data.
- Data Hit-level: Google Analytics melacak aktivitas clickstream berdasarkan hits (level terendah dari interaksi pengguna dengan sebuah halaman web. Hits ini lalu dikelompokan dalam sesi (hits dalam rentang waktu tertentu), dan pengguna (sekelompok dari sesi (klik disini untuk lebih detil)). API Google Analytics standar membatasi kueri berdasarkan pada sesi dan pengguna saja, tidak memberikan cara mudah untuk mengambil data di hit-level. Sedangkan solusi kami memberikan akses ke data ini.
- Data yang tidak dibatasi: Dengan mengambil data dari Google Analytics dan menyimpannya di Amazon S3, kita bisa mengakali batasan 500rb sesi. Kita juga mendapatkan akses ke data yang tidak diamputasi untuk setiap query pada skala apapun.
- Privasi data: Dalam era GDPR, menyimpan data sensitif di Google Analytics dan melakukan ETL dengan perangkat pihak ketiga dapat menimbulkan resiko dalam hal privasi data. Oleh karena itu, solusi kami mengenkripsi data dalam transit dan memproses data seutuhnya di lingkup VPC (Virtual Private Cloud) pelanggan.
Gambaran umum solusi
Solusi ini dibangun dengan meng-ekstraksi data hit-level dan menyimpannya di arsitektur data lake di Amazon S3. Lalu kita menggunakan Amazon Athena dan Amazon QuickSight untuk analitik dan membuat laporan. Upsolver, sebuah penyedia solusi premier AWS, digunakan untuk otomatisasi konsumsi data, ETL, dan manajemen data di S3. Upsolver juga melakukan orkestrasi seluruh solusi dengan antarmuka pengguna grafis yang mudah untuk digunakan. Berikut ini adalah diagram tingkat tinggi dari arsitektur solusinya.
Dengan menggunakan konektor GA dari Upsolver, kita melakukan ekstraksi data hit-level dari Google Analytics. Data ini lalu secara otomatis dikonsumsi dan disimpan dalam format yang sudah dioptimisasi di dalam data lake Amazon S3. Berikut ini adalah praktek-praktek yang dianjurkan:
- Simpan data dalam format berkas columnar dari Apache Parquet agar kinerja pembacaan data maksimal serta mengurangi jumlah data yang dipindai setiap kueri.
- Lakukan partisi data berdasarkan waktu kejadian (hit), bukan berdasarkan waktu query API.
- Secara berkala, lakukan penggabungan beberapa berkas kecil kedalam berkas besar untuk kinerja dan kompresi yang lebih baik.
Saat data sudah disimpan di S3, kita gunakan GUI dari Upsolver untuk membuat tabel terstruktur dari data Google Analytics. Pengguna alu bisa melakukan query menggunakan Amazon Athena dan Amazon Redshift. Upsolver menyediakan beberapa contoh sederhana untuk membantu pengguna membuat tabel dengan cepat dari data Google Analytics. Terakhir, kita gunakan Amazon Quicksight untuk membuat dasbor interaktif untuk visualisasi data.
Hasilnya adalah sebuah tampilan lengkap dari data Google Analytics kita. Tampilan ini memberikan sebuah analitik swa-layan yang bisa digunakan oleh pengguna pada skala apapun, tanpa batasan-batasan yang dijabarkan sebelumnya.
Membangun solusi: Panduan langkah demi langkah
Pada bagian ini, kita akan membangun lingkungan data, konfigurasi plugin Google Analytics dari Upsolver, ekstraksi data, dan memulai eksplorasi.
Langkah 1: Pemasangan dan izin
- Daftar untuk Upsolver (dapat dilakukan melalui AWS Marketplace)
- Berikan akses kepada Upsolver untuk membaca data dari Google Analytics dan menambah dimensi khusus yang baru. Dimensi-dimensi khusus ini memungkinkan untuk Upsolver membaca data hit-level yang tidak dibatasi secara langsung dari Google Analytics. Bukan melalui mekanisme pelacakan sejajar yang tidak kredibel.
- Untuk mengisi dimensi khusus yang ditambahkan di Google Analytics, maka izinkan Upsolver untuk menjalankan sebuah kode Javascript kecil di situs web anda. Jika anda menggunakan GA360, maka hal ini tidak perlu.
Langkah 2: Ulas dan bersihkan data mentah
Upsolver secara otomatis menemukan skema dan mengumpulkan statistik-statistik utama dari setiap kolom di table untuk sumber-sumber data yang didukung. Dengan demikian, pengguna dapat melihat sekilas data mereka.
Pada tangkapan layar berikut ini, anda bisa melihat informasi schema-on-read
di sisi kiri, statistik per bidang dan nilai distribusi di sisi kanan.
Langkah 3: Penerbitan ke Amazon Athena
Upsolver menyediakan empat contoh untuk membuat tabel di data lake AWS berdasarkan entitas Google Analytics yang dianalisa:
- Tampilan-halaman (Pageviews) – digunakan untuk analisa alur dan kebiasaan pengunjung pada bagian tertentu dari sebuah properti web menggunakan metrik-metrik seperti waktu di halaman dan tingkat keluar.
- Kejadian (Events) – interaksi yang ditetapkan pengguna seperti kedalaman gulir halaman dan klik tautan.
- Sesi (Sessions) – memonitor perjalanan spesifik di sebuah properti web (semua tampilan halaman dan semua kejadian).
- Pengunjung (Users) – Mengerti tentang interaksi pengunjung properti web atau app dari waktu ke waktu.
Semua tabel dipartisi berdasarkan waktu kejadian, agar memberikan kinerja optimal untuk kueri.
Pengguna Upsolver bisa memilih untuk menjalankan templat/contoh bawaan, memodifikasinya dahulu atau membuat tabel baru yang unik sesuai kebutuhan mereka.
Tangkapan layar berikut ini menunjukkan skema yang diproduksi oleh templat Tampilan-halaman:
Tangkapan layar berikut ini menunjukkan tabel Tampilan-halaman dan Kejadian, serta tampilan Athena untuk sesi dan pengunjung, yang dihasilkan oleh templat Upsolver.
Berikut ini adalah beberapa contoh kueri yang mungkin anda jalankan untuk mendapatkan wawasan spesifik.
Langkah 4: Visualisasi di Amazon Quicksight
Setelah data dikonsumsi, dibersihkan, dan disimpan dalam S3 dengan bentuk yang terstruktur, maka sekarang kita siap untuk memvisualisasikannya dengan Amazon Quicksight. Mulailah dengan membuat dasbor seperti yang disediakan Google Analytics. Tapi kita tidak harus berhenti disitu, kita bisa menggunakan fitur pembelajaran mesin dari Quicksight untuk mendapatkan wawasan yang lebih dalam dari data kita. Kita juga bisa menanamkan visualisasi dari Amazon Quicksight kedalam portal web dan aplikasi yang sudah ada serta membuatnya tersedia untuk semua orang.
Kesimpulan
Dengan sedikit pengaturan, kita bisa melakukan ektraksi data hit-level dari Google Analytics, menyiapkan, dan menyimpannya di data lake Amazon S3. Dengan kombinasi Upsolver, Amazon Athena, dan Amazon Quicksight, kita bisa membuat solusi di AWS dengan fitur lengkap untuk melakukan analisa lalu lintas web dari data Google Analytics.
Manfaat teknis utama:
- Skema saat-baca berarti pengguna data tidak perlu membuat tabel struktur dari model terlebih dahulu, dan bisa dengan instan mengerti tentang dimensi-dimensi utamanya. Contoh: 85% dari pengunjung menggunakan browser web Google Chrome.
- Antarmuka pengguna grafis yang memungkinkan konsumsi data Google Analytics secara swalayan.
- Implementasi solusi yang cepat dengan menggunakan templat/contoh yang dibuat sebelumnya untuk memetakan data mentah dari data Google Analytics ke tabel di data lake.
- Kemampuan untuk memutar ulang data historis dari Google Analytics yang disimpan di Amazon S3.
- Kemampuan untuk melakukan partisi data di Amazon S3 berdasarkan waktu hit, serta mengurangi kompleksitas untuk menangani keterlambatan data.
- Optimisasi data di Amazon S3 secara otomatis untuk meningkatkan kinerja kueri.
- Terintegrasi penuh dengan serangkaian layanan AWS – Amazon S3, Amazon Athena, Amazon Redshift and Amazon Quicksight.
Sekarang, setelah kita mempunyai fitur yang sama, kita bisa memulai eksplorasi untuk mengintegrasikan dengan sumber data lainnya seperti CRM, Penjualan, dan profil pelanggan. Dengan demikian kita bisa membangun tampilan 360 derajat yang sebenarnya dari pelanggan/pengunjung kita. Selanjutnya, sekarang anda bisa mulai menggunakan layanan pembelajaran mesin AWS untuk optimisasi lalu lintas pengunjung ke halaman web anda, memperkirakan permintaan dan mempersonalisasi pengalaman pengguna.
Kami sungguh senang untuk mendengar pendapat anda, Silahkan meninggalkan komentar, umpan balik, atau pertanyaan-pertanyaan yang anda pikirkan.
Konten dan opini di artikel ini adalah milik penulis pihak ketiga; dan AWS tidak bertanggung jawab untuk konten dan akurasi dari artikel ini.
Tulisan ini berasal dari artikel Analyze Google Analytics data using Upsolver, Amazon Athena, and Amazon QuickSight yang ditulis oleh Roy Hasson dan Eran Levy serta diterjemahkan oleh Diky Muljana.