ଓଡ଼ିଆ ପାଇଁ OCR: ଛପା ଲେଖାର ଛବିରୁ ଡିଜିଟାଲ ଲେଖା

ସ୍କାନ ହୋଇଥିବା ବହିର ଟାଇପସେଟ ନଥିଲେ କେମିତି ଟାଇପକରା ଲେଖା ପାଇବେ? ବାଟ ଦୁଇଟି; ବହିଟିକୁ ଆଉଥରେ ଟାଇପ କରିବେ କିମ୍ବା ତାକୁ ଅପ୍ଟିକାଲ କ୍ୟାରେକ୍ଟର ରେକଗନେସନ କରିବେ । ଆସନ୍ତୁ ଜାଣିବା ଦ୍ୱିତୀୟଟି ବାବଦରେ ।

ଓଡ଼ିଆ ପାଇଁ OCR: ଛପା ଲେଖାର ଛବିରୁ ଡିଜିଟାଲ ଲେଖା

Monday February 15, 2016,

5 min Read

ଆମ ଭାଷାଟି ଆଗେ ଲେଖାଯାଉଥିଲା ପଥର କାନ୍ଥରେ । ପରେ ତମ୍ବାପଟା, ତାଳପତର ଦେଇ କରଣମାନଙ୍କ ହାତରେ ଲେଖାଗଲା ଅନେକ ନଥି । ଛାପାଖାନା ବସିଲା ଆମରି ରାଇଜେ । ବିଭିନ୍ନ ବିଷୟରେ ଲକ୍ଷ ଲକ୍ଷ ବହି ଛପା ହେଲା । ପରେ ଡେସ୍କଟପ ପବ୍ଲିସିଂ (ଡିଟିପି) ଆସିଲା । କାଠ-ଧାତବ ବ୍ଲକରେ ଅକ୍ଷର ଖଞ୍ଜା ନ ହୋଇ କମ୍ପୁଟରରେ ଟାଇପ ହେଲା ଆଉ ଡିଜିଟାଲ ଉପାୟରେ ଛପା ହେଲା । ଏହାରି ସକାଶେ ଖବଜକାଗଜସବୁ କେଇ ଘଣ୍ଟା ଭିତରେ କେଇ ହଜାରେ କି ଶହହଜାରେ ଛପାଇପାରୁଛନ୍ତି । ଡିଜିଟାଲ ଉପାୟରେ ଛପାରେ ସୁବିଧା ହେଉଛି ପ୍ରକାଶକଙ୍କ ପାଖେ ପ୍ରାୟ ଲେଖାର ଇ-କପି ବା ସଫ୍ଟକପିଟିଏ ଥାଏ । ତେଣୁ ଭବିଷ୍ୟତରେ କେବେ ଲୋଡ଼ା ପଡ଼ିଲେ ଲେଖାଟିକୁ ସଂଶୋଧନ କି ପୁନପ୍ରକାଶ କରାଯାଇପାରେ । କିନ୍ତୁ ଇ-କପି ନଥିଲେ? ଅଜା ଆଇଲେ ମୂଳରୁ ଗା' ମାନେ ସବୁ ପାଠ ଆଉଥରେ ଟାଇପ କରିବାକୁ ହେବ । ବିଡ଼ମ୍ବନାର ବିଷୟ ଯେ ଓଡ଼ିଶାର ଉଣାଅଧିକ ପ୍ରକାଶକ ନିଜ ପ୍ରକାଶନ ଇ-କପିଯାକ ସାଇତି ରଖିନଥାନ୍ତି । ଓଡ଼ିଆ ବହିର କାଟତି କମି କମି ଆସିବା ବେଳକୁ ପୁନପ୍ରକାଶନ ଖୁବ କମ ହୁଏ । ତେଣୁ ପୁନପ୍ରକାଶନ ଲୋଡ଼ା ପଡ଼ିଲେ ଅନେକ ବହି ଦ୍ୱିତୀୟ ବାର ଟାଇପ କରାଯାଏ । ଧନ ଓ ସମୟର କି ଅଯଥା ଅପଚୟ ସତେ! ଡିଜିଟାଲ ଉପାୟରେ ଛପା ବହି ବାଦ ଆମ ଗତ ଦଶନ୍ଧିରେ ଛପାଅଗଣିତ ବହିର ଡିଜିଟାଲ ସଂରକ୍ଷଣ ମଧ୍ୟ ଲୋଡ଼ା । ଉଇ ଆଉ ପୋକଙ୍କ କରୁଣାରୁ ବିରଳ ହୋଇଯାଉଥିବା ଅନେକ ବହିର ଡିଜିଟାଲ ସଂରକ୍ଷଣ ନହେଲେ ଆମ ଭାଷାର ଅନେକ ବିଭବ ବିଲୀନ ହୋଇଯିବ । ୧୯୫୩ ଆଗର ପ୍ରାୟ ସବୁ ବହିରେ କପିରାଇଟ ନଥିବାରୁ ସେସବୁର ପୁନପ୍ରକାଶନ କିମ୍ବା ଡିଜିଟାଲ ସଂରକ୍ଷଣ ଆଗେ । ତା' ଛଡ଼ା ଏକ ଭାଷାର ଗତିଶୀଳତା ପାଇଁ ପାଖାପାଖି ସବୁ ବହିର ସଂରକ୍ଷଣ ଲୋଡ଼ା । ସଂରକ୍ଷଣ କଥା ଆସିଲେ ରୁଢ଼ୀବାଦୀମାନଙ୍କ "ଏଇଟା ଭଲ ବହି, ସେଇଟା ବାଜେ ଲେଖା" କଥା ନଶୁଣିବା କଥା । 

image


କେମିତି ସଂରକ୍ଷିତ ହେବ ସେ ଅସରନ୍ତି ଲେଖା? 

ପୁଣି କେତେ ଯେ ପ୍ରକାଶନ ସ୍ଥାନୀୟ ପ୍ରକାଶନ ହୋଇ ଅଧିକ ପାଠକଙ୍କ ପାଖେ ପହଞ୍ଚି ନଥିବେ ।

୧୦୦ ବରଷ ତଳୁ ୧୯୧୪ରେ ଲାଟିନ ଲିପି (ଇଂରାଜୀ, ସ୍ପାନିସ, ଫରାସୀ, ଜର୍ମାନ ଆଦି ଲେଖାହେଉଥିବା ଲିପି)ରେ ଲେଖା ବାକି ଅନେକ ଭାଷାରେ ଏ ଅସୁବିଧାଟି ସୁଧାରିବା ଲାଗି "ଅପ୍ଟିକାଲ କ୍ୟାରେକ୍ଟର ରେକଗନେସନ" (Optical Character Recognition) ବା "OCR" (ଓସିଆର) ନାମକ ଟେକନୋଲୋଜିର ବିକାଶ ଘଟିଲାଣି । କମ୍ପୁଟରର ବିକାଶ ହେବା ପରେ ଛପା ବହିର ସ୍କାନ କିମ୍ବା ବହିର ଡିଜିଟାଲ କପିସବୁକୁ (ପିଡିଏଫ ଓ ସମାନ ଭାବେ) ଏଇ ଓସିଆର ବ୍ୟବହାର କରି ସେଥିରେ ଥିବା ଲେଖା ବାହାର କରିବା ମଧ୍ୟ ପୁରୁଣା ହେଲାଣି । ଅନେକ ପୁରୁଣା ଓ ଉପାଦେୟ ପୋଥିର ଡିଜିଟାଲ ସଂସ୍କରଣ ଏମିତି ତିଆରି ହୋଇସାରିଛି । ଲାଟିନ ପରେ ବାକି ଲିପିମାନଙ୍କରେ ମଧ୍ୟ ଓସିଆର ତିଆରି ହୋଇ କାମରେ ଲାଗିଲାଣି । କିନ୍ତୁ ଦକ୍ଷିଣ ଏସିଆର ବିଭିନ୍ନ ଭାଷା ଏଥିରେ ପଛୁଆ ଥିଲେ । ମାଲାୟାଲାମ, ତାମିଳ, ଦେବନାଗରୀ, ତେଲୁଗୁ ଓ ବଙ୍ଗଳା ଆଦି ଲିପିରେ ଅଧିକ ଲେଖାଲେଖି କାମ ହୋଇଥିଲେ ହେଁ ସେମାନଙ୍କ ଲିପି ପାଇଁ ଓସିଆର ସେତେ ଦମ୍ଭିଲା ନଥିଲା । ଓଡ଼ିଆର ଅବସ୍ଥା ମଧ୍ୟ ଆଉରି ବଳେଇ ପଡ଼ିଥିଲା । ରେଭେନ୍ସା, ଉତ୍କଳ ବିଶ୍ୱବିଦ୍ୟାଳୟ ଓ NIT ରାଉରକେଲା ତଥା ଓଡ଼ିଶାର ବାକି ମହା/ବିଶ୍ୱବିଦ୍ୟାଳୟମାନଙ୍କରେ ଅନେକେ ଓଡ଼ିଆରେ ଓସିଆର ବାବଦରେ ଗବେଷଣା ନିବନ୍ଧ ଲେଖି ପିଏଚଡି ମଧ୍ୟ ଲାଭ କରିଛନ୍ତି । କିନ୍ତୁ ସେ ଗବେଷଣା ନିବନ୍ଧ ସବୁ ଚୁଲିରେ ଜାଳ ହୋଇଛି କାରଣ ଗବେଷଣାର ଫଳ ଓ ବ୍ୟବହାର ଉପଯୋଗୀ ଓଡ଼ିଆ ଓସିଆରଟିଏ କେବେ ଲୋକଙ୍କ ପାଇଁ ବିତରଣ କରାଯାଇ ନାହିଁ । 

ଅଧିକାଂଶ ସରକାରୀ ସଫ୍ଟଓଏର ପ୍ରକଳ୍ପର ଅବସ୍ଥା ଏଇଆ । କେବଳ ପ୍ରକଳ୍ପ ମୁଖ୍ୟଙ୍କ କମ୍ପୁଟରରେ ସଫ୍ଟଓଏରଟି କାମ କରେ ଆଉ ଜନସାଧାରଣଙ୍କ ଟିକସରୁ ଅନୁଦାନ ପାଇ ତିଆରି ପ୍ରକଳ୍ପର ନିଶୁଳ୍କ ବ୍ୟବହାର କେବେ ସେ ଜନସାଧାରଣ ପାଆନ୍ତି ନାହିଁ । ଆଗରୁ ପ୍ରଫେସର ସଂଘମିତ୍ରା ମହାନ୍ତିଙ୍କ ପରିଚାଳନାରେ ଉତ୍କଳ ବିଶ୍ୱବିଦ୍ୟାଳୟରେ ଓଡ଼ିଆ ଓସିଆର କାମ ଚାଲିଥିଲେ ମଧ୍ୟ ତାଙ୍କ ଅବସର ପରେ ଏ ଓସିଆର ପ୍ରକଳ୍ପ ବି ଅବସର ନେଲା । ଆଉ କାମର କୌଣସି ଅଂଶ ସୁଦ୍ଧା ଏବେ ଜନସାଧାରଣ ବ୍ୟବହାର ଲାଗି ଉପଲବ୍ଧ କରାଯାଇନାହିଁ । ଏ ପରିସ୍ଥିତିରେ ହାତଗଣତି କେଇଜଣ ଓଡ଼ିଆ ଓସିଆର ପାଇଁ କାମ କରୁଥିଲା । କେବଳ ଗୋଟାଏ କାମ ଓଡ଼ିଆରେ କିଛି ଆଗକୁ ଯାଇଥିଲା । ସେ ହେଲା "ଟେସେରାକ୍ଟ" (Tesseract) । ବଙ୍ଗଳା ପାଇଁ କାମ କରୁଥିବା ଦେବାୟନ ବାନାର୍ଜୀ ଓ ତାମିଳ ପାଇଁ କାମ କରୁଥିବା ଆରକେଭିଏସ ରମଣଙ୍କ ଉଦ୍ୟମ ହେତୁ ଏହି କାମ କିଛି ଆଗକୁ ଯାଇଥିଲା । ଓଡ଼ିଆରେ ଏ କାମ କିଛି ବାଟ ଯାଇ ଏକ ରକମ ଅଟକିଯାଇଥିଲା । ଏ କାମଟି ନିକଟରେ ଜଣେ ଡାକ୍ତରୀ ଛାତ୍ର ନସିମ ଅଲିଙ୍କ ଉଦ୍ୟମରେ ବଢ଼ିଛି । ୫୦% କମ ସଫଳତାର ସହ କାମକରୁଥିବା ଟୁଲଟି ଏବେ ୬୦%ରୁ ଅଧିକ ସଫଳ ଭାବେ କାମ କରୁଛି । 

ଓସିଆର ଏକ ଅତି କଠିନ ନ ହେଲେ ମଧ୍ୟ ଅତି ଲମ୍ବା କାମ । ଓଡ଼ିଆରେ ଅଧିକ ଲୋକ ଯୋଡ଼ି ହୋଇପାରିଲେ ଯାଇ ଏ କାମ ଆଗକୁ ବଢ଼ିବ । ବେଙ୍ଗାଳୁରୁସ୍ଥିତ ଇଣ୍ଡିଆନ ଇନଷ୍ଟିଚୁଟ ଅଫ ସାଇନ୍ସ (IISC)ର MILE ଲ୍ୟାବର ଦ୍ୱାରା କନ୍ନଡ଼ ଓ ତାମିଳ ପାଇଁ ଦୁଇଟି ଓସିଆର ତିଆରି ହୋଇ ଖୁବ ଭଲ ଭାବେ କାମ କରୁଥିଲେ ହେଁ ଏହାର ବ୍ୟବହାର କେବଳ ନିର୍ଦ୍ଦିଷ୍ଟ ବ୍ୟବହାରକାରୀଙ୍କ ପାଇଁ ସୀମିତ । ସୁଯୋଗକୁ ଟେସେରାକ୍ଟ ଥିଲା ଏକ ଖୋଲା ସଫ୍ଟଓଏର (free software) ଯାହାର ସୋର୍ସ କୋଡ଼ ସଭିଙ୍କ ପାଇଁ ଖୋଲାରେ ବିତରିତ । ଫଳରେ ଆଜି ଜଣେ ଯେଉଁଠି ସାରିଥିବ କାଲି ଆଉଜଣେ ଆରମ୍ଭ କଲାବେଳକୁ ଆଜିର କାମକୁ ବ୍ୟବହାର କରି ଆଗେଇ ନେବ । ଆଉ ଚୂଡ଼ାନ୍ତ ପ୍ରକଳ୍ପଟିରେ ସବୁ ଯୋଗଦାଙ୍କାରୀଙ୍କୁ ଉଚିତ ଶ୍ରେୟ ମିଳିବ । ଏମିତି ସିନା ହୁଅନ୍ତା ଆମ କୋଠକାଠିଆ ସମାଜ ସଂହତି । ଏଇ ଟେସେରାକ୍ଟର ରକ୍ଷଣାବେକ୍ଷଣା ଏବେ ଗୁଗୁଲ ହାତରେ । ଗୁଗୁଲ କେଇ ବର୍ଷ ତଳେ ଆରମ୍ଭ କରିଥିବା ଗୁଗୁଲ ବୁକ୍ସ ପ୍ରକଳ୍ପରେ ଅନେକ ପୁରୁଣା ବହିର ଡିଜିଟାଲକରଣ କରିବାରେ OCRopus ନାମକ ଆଉ ଏକ ଖୋଲା ସଫ୍ଟଓଏରର ବହୁଳ ବ୍ୟବହାର ହୋଇଥିଲା । ଗୁଗୁଲ ଦ୍ୱାରା ନୂଆ ଓସିଆରଟିଏ ଓଡ଼ିଆ ପାଇଁ ଆସିଛି । ଗୁଗୁଲ ଡ୍ରାଇଭ (drive.google.com) ଜରିଆରେ ଓଡ଼ିଆ ଓ ଦକ୍ଷିଣ ଏସିଆ ବାକି ମୁଖ୍ୟ ଭାଷାରେ ଛପା ଲେଖାର ସ୍କାନରୁ ଲେଖା (ଟେକ୍ସଟ) ଆହରଣ କରିହେଉଛି । ଏଥିରେ ଗୁଗୁଲର ନିଜ OCRଟିଏ କାମରେ ଲାଗୁଛି । ହୁଏତ ଆଗରୁ ବଖଣାଯାଇଥିବା ଟେସେରାକ୍ଟ ଆଉ OCRopusର କିଛି ଅଂଶ ଏଥିରେ ବ୍ୟବହୃତ । ତେବେ ଲାଭଖୋର ଗୁଗୁଲ ଏହି ସାଧାରଣରେ ଜଣାଇନାହିଁ । ତେବେ ସଫ୍ଟଓଏର ବିନାମୂଲ୍ୟରେ ଗୁଗୁଲ ଡ୍ରାଇଭ ଖୋଲି ବ୍ୟବହାର କରାଯାଇପାରିବ । ସମାଜ ଓ ଅନ୍ୟାନ୍ୟ ଖବରକାଗଜର ଇପେପର ହେଉ କି ଆଉ କେଉଁ ବହିର ଡିଟିପିକରା ପିଡିଏଫ କିମ୍ବା ଛବି (jpeg, png ଆଦି) ହେଉ, ଛବିରୁ ଅକ୍ଷର ରୂପାନ୍ତରରେ ସଫଳତା ୯୫%ରୁ ବି ଅଧିକ । ବହିଟିଏ ଡିଟିପି କରି ତିଆରି ହୋଇଥିଲେ ଛପା ବହିର ସ୍କାନରୁ ଲେଖା ଆହରଣ ୯୫% ରୁ ସାମାନ୍ୟ ଉଣା । ତେବେ କିଛି ସମୟ ଦେଇ ସଂଶୋଧନ କଲେ ସୁବିଧାରେ ଛପା ଲେଖାର ଛବିରୁ ଲେଖା ଆହରଣ ସେତେ ଦୂରୁହ ନୁହେଁ ।

ଏଣିକି ଓଡ଼ିଆ ପାଇଁ ସବୁଠୁ ବଡ଼ କାମଟି ରହିଛି ପୁରୁଣା ବହି, ପତ୍ରପତ୍ରିକାରୁ ଲେଖା ଆହରଣ । ୭୦-୮୦ ଦଶକର କିଛି ପୁରୁଣା ବହିରୁ ଲେଖା ଆହରଣ କଲାବେଳେ ୮୦-୮୫ ଭାଗ ସଫଳତା ମିଳୁଛି । ଏହା ଏଯାବତ ମିଳୁଥିବା ସମସ୍ତ ଓଡ଼ିଆ ଓସିଆରଠାରୁ ଯଥେଷ୍ଟ ଅଧିକ । ଏହାକୁ ବ୍ୟବହାର କରିବା ବାବଦରେ ଏକ ସଂକ୍ଷିପ୍ତ ଶିକ୍ଷଣ bitly.com/odiaocr ରେ ପଢ଼ିବା ଓ ଶିଖିବା ପାଇଁ ଉପଲବ୍ଧ ।

ଏହା ବ୍ୟବହାର କରିବା ପାଇଁ ଏକ ସୁବିଧା ବାଟ:

image


୧. ଏକ ଛପା ଲେଖାର ସ୍କାନ କିମ୍ବା ଡିଟିପି କରା ପିଡ଼ିଏଫ drive.google.com ରେ ଲଗିନ କରି ଅପଲୋଡ଼ କରିବେ

୨. ଅପଲୋଡ଼ ହେଲେ ଲେଖାର ନାଁ ଉପରେ right click କରି Open with > Google Doc ବାଛିବେ

୩. ଏବେ ଏକ ନୂଆ ଉଇଣ୍ଡୋରେ ଲେଖାର ଛବି ତଳକୁ ଲେଖାତକ text ଭାବେ ଦିଶିବ

ସେ ଟେକ୍ସଟକୁ ଆପଣ ଯେଉଁଠି ଲୋଡ଼ାଥିବ ସେଠି ପୁନବ୍ୟବହାର କରିପାରିବେ । ନିଜ ବହିର ପୁନମୁଦ୍ରଣ ହେଉ କିମ୍ବା ପୁରୁଣା ବହିରୁ ଲେଖା ଆହରଣ ହେଉ, ଏହା ଅନେକ ଓଡ଼ିଆଙ୍କ ବ୍ୟକ୍ତିଗତ ଓ ସାମୁହିକ କାମରେ ଲାଗୁ । ଅଧିକ ଓଡ଼ିଆ ବହିର ଡିଜିଟାଲ ରୂପ କେବଳ ପିଡ଼ିଏଫ ହୋଇ ଛବି ହୋଇ ନରହୁ, ଲେଖା ହୋଇ ସର୍ଚ ଇଞ୍ଜିନରେ ଖୋଜାଯୋଗ୍ୟ ହେଉ । ଧୀରେ ଧୀରେ ଇଣ୍ଟରନେଟରେ ଓଡ଼ିଆ ପାଠକ ଓଡ଼ିଆରେ ଟାଇପ କରି ଖୋଜିବା ବେଳେ ଆମ ଭାଷାର ଉପାଦେୟ ଲେଖାତକ ତାଙ୍କ ହାତପାହାନ୍ତେ ମିଳୁ ।