Saundeks (Soundex)

Napomena: Ovaj post je četvrti od četiri dijela na temu pretrage sa greškom.

Saundeks (eng. soundex), kao fonetski algoritam, služi za kodiranje riječi prema načinu kako se izgovaraju. Razvili su ga Robert Rasel (eng. Robert Russel) i Margaret Odel (eng. Margaret O’Dell). Ovaj algoritam je zaštićen patentom 1918. i 1922. godine (U.S. Patent 1,261,167 i U.S. Patent 1,435,663). Sredinom tridesetih godina prošlog vijeka korišten je za retrospektivnu analizu popisa stanovništa SAD-a od 1890. do 1920. godine. Šezdesetih godina prošlog vijeka doživljava vrhunac kada je često bio tema članaka priznatih stručnih časopisa.

Algoritam

Algoritam saundeksa se zasniva na podjeli glasova prema mjestu tvorbe, tj. prema mjestu gdje se nalazi jezik i usne pri izgovoru. Kod saundeksa se sastoji iz jednom slova i tri cifre, koji se određuju na sledeći način:

  1. čuva se prvo slovo riječi
  2. uklanjaju se sva sledeća slova, izuzev ako nije prvo: a, e, h, i, o, u, w, y
  3. svim slovima (izuzev prvom) se pridružuje broj prema sledećoj tabeli:
    b, f, p, v 1
    c, g, j, k, q, s, x, z 2
    d, t 3
    l 4
    m, n 5
    r 6
  4. ukoliko je dva ili više slova sa istim brojevima bilo u orginalnoj riječi jedan do drugog, brišu se svi njihovi brojevi sem prvog
  5. uzimamo slovo koje smo zapamtili (prvi korak) i prve tri cifre
  6. ukoliko nema dovoljno cifara, uzimaju se nule

U sledećoj tabeli prikazano je par primjera, zajedno sa svim koracima u nastanku koda:

Riječ Robert Rupert Mississippi John
Korak 1 (čuvanje) R R M J
Korak 2 Rbrt Rprt Msssspp Jn
Korak 3 R163 R163 M222211 J5
Korak 4 R163 R163 M221 J5
Korak 5 R163 R163 M221 J5
Korak 6 R163 R163 M221 J500
Kod R163 R163 M210 J500

Varijacije

Orginalni saundeks je osmišljen za prezimena sa engleskog govornog područja, da bi se kasnije pojavile i modifikacije za druge jezike, kao i poboljšanja za engleski jezik.

Obrnuti saundeks (eng. reverse soundex) je algoritam gdje se za prvo slovo koda koristi poslednje slovo, umjesto prvog slova.

Sistem za identifikaciju države Njujork (eng. New York State Identification and Intelligence System) je algoritam koji predstavlja poboljšanje orginalnog saudeksa. Karakteriše ga preciznost veća za 2,7 %, pamćenje relativne pozicije samoglasnika i kod dužine 6 slova. Razvijen je 1970. godine.

Lorens Filips (eng. Lawrence Philips) je razvio algoritam metafon (eng. metaphone) kao odgovor na nedostatke saundeksa. Isti autor je kasnije razvio dvostruki metafon (eng. double metaphone), kao poboljšanje  metafona. Dvostruki metafon odlikuje više pravila za kodiranje, mogućnost obrade nelatiničnih slova i vraćanje dva koda.

Dejč-Mokotofov saundeks (eng. Daitch-Mokotoff soundex) je algoritam koji je razvijen 1985. godine za kodovanje jevrejsko-germanskih i slovenskih prezimena. Njegov autor je Geri Mokotof (eng. Gary Mokotoff), a Rendi Dejč (eng. Randy Daitch) je isti kasnije unaprijedio. U literaturi se često može sresti kao jevrejski saundeks (eng. jewish soundex), istočno-evropski saundeks (eng. eastern european soundex) ili D-M saundeks (eng. D-M soundex). Karakteriše ga veća preciznost i kod koji se sastoji iz šest cifara.

No comments yet.