Bahasa sebagai sarana komunikasi yang akan selalu dipakai manusia untuk berinteraksi
dengan sesamanya memiliki sejarahnya sendiri-sendiri. Bahasa di sebuah wilayah bisa saja
memiliki sejarah yang berkaitan dengan wilayah lain, bisa juga bahasa dari dua wilayah
merupakan bahasa kerabat sehingga memiliki beberapa persamaan. Dalam bahasa, ada istilah
leksikostatistik yang artinya pengelompokan bahasa. Pengelompokan ini berdasarkan
persamaan dan perbedaan yang ditemukan dalam dua bahasa yang diteliti.
Leksikostatistik adalah suatu teknik dalam pengelompokan bahasa yang lebih cenderung
mengutamakan peneropongan kata-kata (leksikon) secara statistik, untuk kemudian berusaha
menetapkan pengelompokan itu berdasarkan prosentase kesamaan dan perbedaan suatu
bahasa dengan bahasa lain. Leksikostatistik memiliki beberapa asumsi dasar yaitu:
- Sebagian dari kosakata suatu bahasa sukar sekali berubah bila dibandingkan dengan
bagian lainnya. - Retensi ( ketahanan) kosakata dasar adalah konstan sepanjang masa.
- Perubahan kosakata dasar pada semua bahasa adalah sama.
- Bila prosentase dari dua bahasa kerabat (cognate) diketahui, maka dapat dihitung
waktu pisah kedua bahasa tersebut.
Untuk menerapkan keempat asumsi di atas, maka perlu diambil langkah-langkah tertentu
yaitu: - Mengumpulkan kosaka dasar bahasa kerabat
Mengumpulkan kosa kata menjadi unsur paling penting dalam membandingkan dua
bahasa. Daftar yang baik seperti milik Morrish Swadesh yang berisi 200 kata. Daftar
tersebut membawa keuntungan dalam penelitian, karena terdiri dari kata-kata yang
non-kultural, serta retensi kata dasarnya telah diuji dalam bahasa-bahasa yang
memiliki naskah tertulis. Dalam pengumpulan data, setiap gloss harus diterjemahkan
dengan kata percakapan sehari-hari. Makna dan pengertian kata-kata dalam daftar
harus sama nilainya. Misalnya dalam menerjemahkan kata tahu harus dicari kata yang
sama nilainya dengan pengertian itu yakni yang menyangkut fakta.2. Menghitung kata kerabat
Untuk menetapkan kata-kata kerabat (cognates) dari bahasa-bahasa yang diselidiki,
maka hendaknya mengikuti prosedur ini:
a. Gloss yang tidak diperhitungkan
b. Pengisolasian morfem terikat
c. Penetapan kata kerabat - Menghitung waktu pisah
Waktu pisah antara dua bahasa kerabat yang telah diketahui prosentase kata
kerabatnya, dapat dihitung dengan menggunakan rumus berikut:
W = log. C / 2 log.r
Di mana W = waktu perpisahan dalam ribuan (millenium) tahun yang lalu; r = retensi,
atau prosentase konstan dalam 1000 tahun atau disebut juga indeks; C = prosentase
kerabat; log = logaritma. - Menghitung jangka kesalahan
Jangka kesalahan biasanya dibuat untuk tiga asumsi yaitu:
a. Ketepatan perhitungan diperkirakan berkisar sekitar 68% dari kebenaran, atau
untuk mudahnya dikatakan 0,7 mengandung kebenaran;
b. Ketetapan perhitungan dapat diperkirakan 90% atau 0,9 dari kebenaran;
c. Kebenaran diperkirakan 50% atau 0,5 dari keadaan yang sebenarnya.
Untuk menghitung jangka kesalahan biasanya dipergunakan kesalahan standar, yaitu
70% dari kebenaran yang diperkirakan. Kesalahan standar diperhitungkan dengan
rumus:
S = √C(1-C) / n
Di mana S adalah kesalahan standar dalam prosentase kata kerabat; C adalah
prosentase kata kerabat; n = jumlah kata yang diperbandingkan.
Bahasa-bahasa yang memperlihatkan prosentase kekerabatan yang tinggi merupakan
kelompok yang lebih dekat keanggotaanya. Bagi seorang antropolog dan ahli sejarah, datadata leksikostatistik memberikan gambaran mengenai tingkat perkembangan bahasa-bahasa
dan dialek-dialek. Dengan mengadakan penelitian atas bahasa-bahasa dan dialek-dialek,maka pasangan yang menunjukkan angka perpisahan yang tinggi menyatakan bahsa
pencabangan bahasa tersebut pada waktu yang lebih tua, sedangkan pasangan yang
menunjukkan angka perpisahan yang kecil menyatakan bahwa pencabangan baru saja
terjadi.