Jagosatu.com - Apa jadinya jika semua sistem AI bisa mengambil data dari Wikipedia hanya dengan satu klik?
Sekarang hal itu bisa terjadi berkat proyek baru dari Wikimedia Deutschland yang berkolaborasi dengan DataStax dan Jina AI.
Menurut TechCrunch – proyek ini bertujuan mengubah data dari Wikidata menjadi bentuk vektor agar lebih mudah dimengerti dan digunakan oleh sistem AI.
Sebelumnya, pengembang AI harus mengakses data dengan cara rumit seperti memakai query SPARQL, yang tidak ramah untuk pemula.
Dengan bentuk vektor, AI tidak lagi hanya mencocokkan kata, tapi bisa memahami makna atau konteks dari data yang dicari.
Proyek ini dikenal dengan nama Wikidata Embedding Project, dan telah mencakup hampir 120 juta entri yang tersedia dalam berbagai bahasa.
Menurut DataStax – sistem ini juga mendukung Model Context Protocol (MCP), yang memungkinkan AI berkomunikasi langsung dengan sumber data.
Dilansir dari blog Wikimedia Deutschland – proyek ini dibuat agar pengembang kecil juga bisa mengakses data besar tanpa butuh server mahal.
Baca Juga: ChatGPT Makin Aman, Tapi Bikin Kesal? Ini Fitur Barunya!
Jina AI ikut menyumbangkan teknologi untuk mengubah teks dari Wikidata menjadi format vektor dalam banyak bahasa.
Menurut laporan The Verge – data Wikidata yang diproses hingga pertengahan September 2024 telah dimasukkan ke sistem baru ini.
Melalui pendekatan ini, sistem AI bisa memahami hubungan antar hal, misalnya “Albert Einstein” terhubung ke “fisikawan”, “relativitas”, dan “Jerman”.
Teknologi ini juga mendukung sistem bernama RAG atau retrieval-augmented generation, yaitu cara AI mencari fakta dari database saat membuat jawaban.
Dengan begitu, AI bisa lebih akurat dan tidak asal mengarang jawaban (hallucination), yang selama ini jadi masalah utama.
Dilansir dari blog Wikimedia Deutschland – teknologi ini bahkan bisa membantu mendeteksi vandalisme di Wikipedia karena pola datanya bisa dikenali lebih cepat.
Selain Wikidata, Wikimedia juga bekerja sama dengan Kaggle untuk menyediakan dataset terstruktur dari artikel Wikipedia.
Menurut The Verge – dataset ini berisi ringkasan, deskripsi, infobox, gambar, dan struktur artikel, tanpa harus scraping langsung dari Wikipedia.
Langkah ini juga membantu meringankan beban server Wikimedia yang sering terganggu akibat aktivitas scraping otomatis.
Walau datanya sekarang lebih mudah diakses AI, tampilan Wikipedia untuk pengguna biasa tetap sama dan tidak mengalami perubahan.
Dengan akses seperti ini, AI bisa digunakan untuk membuat chatbot pintar, aplikasi edukasi, hingga penjawab otomatis berbasis fakta.
Harapannya, akses data seperti ini bisa merata dan digunakan oleh siapa saja — bukan hanya perusahaan teknologi besar.
Menurut TechCrunch – ini adalah langkah penting untuk menghadirkan AI yang cerdas, transparan, dan benar-benar berguna bagi masyarakat umum. (KT)
Editor : ALengkong