භාෂා තාක්ෂණ පර්යේෂණාගාරය
භාෂා තාක්ෂණ පර්යේෂණාගාරය
කොළඹ විශ්වවිද්‍යාලයීය පරිගණක අධ්‍යයනායතනය

පරිශීලන උදවු   භාෂාව ‍තෝරන්න:   English   සිංහල
පෑන් දේශීයකරණ ව්‍යාපෘතිය - දෙවන අදියර

මෙම ව්‍යාපෘතියේ දෙවන අදියර සඳහා මූලික කාර්යයන් පහක් යෝජනා වී ඇත. ඒවා නම්,

  1. කළාපීය ව්‍යාපෘති කාර්යයන්
  2. පරිගණකානුසාර භාෂා පරිවර්තකයක් නිර්මාණය කිරීම
  3. ජංගම මෙවළම් සඳහා අත් අකුරු හඳුනාගැනීමේ මෘදුකාංගයක් නිර්මාණය කිරීම
  4. දේශීය භාෂා ඉගැන්වීම සඳහා කාර්යක්ෂම ක්‍රමවේදයක් ප්‍රවර්ධනය හා ඉ‍ගෙනුම් ආධාරක නිර්මාණය කිරීම
  5. සිංහල වෙබ් අන්තර්ගත ප්‍රවර්ධනය සඳහා අවශ්‍ය පුහුණුව සැපයීම
.....................................................................................................................................
  1. කළාපීය ව්‍යාපෘති කාර්යයන්

    පෑන් දේශීයකරණ ව්‍යාපෘතියේ සෙසු රටවල් හා සහයෝගීත්වයෙන් මෙම කළාපීය ව්‍යාපෘති කාර්යයන් සිදුකරන්නේ අදාල භාෂා වලට පොදුවේ භාවිත කළහැකි මෘදුකාංග හා සම්පත් සංචිතයක් නිර්මාණය කිරීමේ අරමුණ ඇතිවයි. මෙය උප කාර්යයන් කිහිපයකට බෙදා ඇති අතර ඇතැම් කොටස් සඳහා පළමු අදියරේදී නිමවූ වාක් සංහිතාව රුකුල් කරගනු ලැබේ.

    1. සමාන්තර වාක් සංහිතා

      මෙහිදී සම්මත කරගත් ඉංග්‍රීසි වාක් සංහිතාවකට අනුකූලව ඊට සමාන්තරව එක් එක් භාෂා සඳහා වාක් සංහිතා අදාල රටවල් විසින් නිර්මාණය කරනු ලැබේ. මෙම සමාන්තර වාක් සංහිතා, භාෂා පරිවර්තනය ඇතුළු විවිධ අන්තර්-භාෂා පැසුරුම්කරන කටයුතු වලදී මහඟු සම්පතක් වනු ඇත.

    2. වචන 5000ක දේශීය WordNet එකක්

      පෑන් දේශීයකරණ ව්‍යාපෘතියේ සෙසු රටවල් සියල්ල එකතුව සම්මත කරගත් ඉංග්‍රීසි වවන 5000කට සමාන්තරව අදාල භාෂා සඳහා ඒ ඒ රටවල් WordNet නිර්මාණය කරනුලැබේ. මෙහිදී අප විසින් එම වචන ගැලපෙන ව්‍යාකරණාංග සහිතව සිංහලට පරිවර්තනය කර ඒවායේ තේරුම්වලට අනුව ඈඳුන WordNet එකක් ලෙස සම්පාදනය කරනු ලැබේ. මෙයද භාෂා පැසුරුම්කරන කටයුතු වලදී වැදගත් පරිගණක වාග් විද්‍යාමය සම්තක් වනු ඇත.

    3. දේශීයකෘත URL

      දේශීය වෙබ් අන්තර්ගතයන් ප්‍රවර්ධනය වන්නාත් සමඟම ඉංග්‍රීසියෙන් ඇති URL එම වෙබ් පිටු පරිහරණයට භාවිතා කිරීමට සිදුවීම සාමාන්‍ය දේශීය පරිශීලකයාට ගැටළු ඇතිකිරීමට සමත්ය. මෙම තත්වය සමනයකිරීම සඳහා, දේශීය භාෂා වලින් URL නම් කිරීමට මූලාකෘතියන් නිර්මාණය මෙම ව්‍යාපෘති උප කාර්යයේ අරමුණයි.

  2. ............................................................. .............................................................


  3. පරිගණකානුසාර භාෂා පරිවර්තකයක් නිර්මාණය කිරීම

    තොරතුරු හා සන්නිවේදන තාක්ෂණය පෘථුල කරනු වස් ගතහැකි මූලික ක්‍රියාමාර්ගයක් නම් තොරතුරු දේශීය භාෂා වලින් පරිහරණය කිරීමට පහසුකම් සැලසීමයි. මේ සඳහා දැනට ඉංග්‍රීසි හා වෙනත් භාෂා වලින් ඇති තොරතුරු විශාල ප්‍රමාණය දේශීය භාෂාවන්ට හැරවීම අප වැනි රටවලට ඉතා වැදගත්ය. මෙහිදී පරිවර්තන කාර්යය වඩා වේගවත් කරනු වස් ඒකාකාරී හා ක්‍රමික කාර්යයන් මිනිස් පරිවර්තකයින් වෙනුවෙන් කරදීමට පරිගණක යොදාගැනේ. මේ සඳහා අප යෝජනා කරන ක්‍රමවේදය වන්නේ උදාහරණ පදනම් කරගත් පරිගණකානුසාර භාෂා පරිවර්තනයයි (Example Based Machine Translation). මෙහි කාර්යක්ෂමතාව ඉහල නැංවීම පිණිස වෙනත් පරිවර්තකයින් ප්‍රවර්ධනය කළ පරිවර්තන මතකයන් (Translation Memories) තමන්ටද භාවිත කළහැකි බෙදාගැනීමේ ක්‍රමයක්ද නිර්මාණය කරනුලැබේ.

  4. ............................................................. .............................................................


  5. ජංගම මෙවළම් සඳහා අත් අකුරු හඳුනාගැනීමේ මෘදුකාංගයක් නිර්මාණය කිරීම

    අතේ ගෙනයන කුඩා පරිගණක සඳහා ආදාන උපාංගයක් ලෙස පන්හිඳ (stylus) භාවිතය පෘථුල වීම, අත් අකුරු හඳුනාගැනීමේ සක්‍රීය ක්‍රමවේද (online handwriting recognition) අනිවාර්යය අවශ්‍යතාවක් කිරීමට හේතුවේ. මේ සඳහා භාවිතයට පහසු ග්‍රැෆිටි (Graffiti) පදනම් කරගත් සිංහල අත් අකුරු හඳුනාගැනීමේ ක්‍රමවේදයක් නිර්මාණය කිරීම අප අරමුණ වේ.

  6. ............................................................. .............................................................


  7. දේශීය භාෂා ඉගැන්වීම සඳහා කාර්යක්ෂම ක්‍රමවේදයක් ප්‍රවර්ධනය හා ඉ‍ගෙනුම් ආධාරක නිර්මාණය කිරීම

    පුද්ගලයින් අතර අනොන්‍ය අවබෝධය සඳහා භාෂාව ඉතා වැදගත් මෙවලමකි. අනෙක් අතට අනෙකාගේ භාෂාව නිසි ලෙස තේරුම් නොගැනීම ගැටළු රැසකට හේතුවේ. ශ්‍රී ලංකාවේ පවතින ජනවාර්ගික ගැටළුවට එක් හේතුවක් ලෙසද මෙම භාෂා අනවබෝධය දැක්විය හැකිය. අන් භාෂා ඉගැන්වීමේදී තාක්ෂණික උපායමාර්‍ග භාවිතයේ වටිනාකම දේශීය භාෂා හා සම්බන්ධ කිසිදු ව්‍යාපෘතියකට අමතක කළහැකි නොහේ. මෙහිදී අප අරමුණ වන්නේ දේශීය භාෂා ඉගැන්වීම පහසු කිරීම සඳහා සඳහා කාර්යක්ෂම ක්‍රමවේදයක් ප්‍රවර්ධනය හා ඉ‍ගෙනුම් ආධාරක නිර්මාණය කිරීමයි. මෙහිදී අප නිර්මාණය කරන ඉගැන්වීම් මූලාකෘතිය අනෙකුත් ව්‍යාපෘති සහකරුවන්ටද තම භාෂා සඳහා භාවිතා කළහැකි වන සුනම්‍ය එකකි.

  8. ............................................................. .............................................................


  9. සිංහල වෙබ් අන්තර්ගත ප්‍රවර්ධනය සඳහා අවශ්‍ය පුහුණුව සැපයීම

    ලෝක ව්‍යාප්ත ජාලයේ විවිධ භාෂා වලින් ඇති අන්තර්ගතය ඒ ඒ භාෂා වලින් අන්තර්ජාලය පරිහරණය කරන්නන්ගේ ගණනට කිසිසේත්ම සමානුපාතික නොවේ. විශේෂයෙන්ම අප මෙම ව්‍යාපෘතිය ක්‍රියාත්මක වන රටවල භාෂාවන්හි අන්තර්ජාල නියෝජනය ඉතා පහළ මට්ටමක පවතී. මෙම තත්වය සමනය කිරීමට අන්තර්ජාලයෙහි දේශීය භාෂාවලින් අන්තර්ගත ප්‍රකාශයට පත්කිරීම ප්‍රවලිත කිරීම මෙහිදී අප‍ගේ අරමුණයි. යුනිකෝඩ් සම්බන්ධ තාක්ෂණයන්ට අමතරව වෙබ් අඩවි නිර්මාණයේ සිට බ්ලොග් (blog) හා විකි (wiki) මඟින් අන්තර්ගතයන් ප්‍රකාශයට පත්කිරීමද මෙම පුහුණුවට ඇතුලත් වේ.

  10. ............................................................. .............................................................

© Language Technology Research Laboratory, 2011 Last updated on 14 December 2011