எங்கள் நிறுவனத்தில் பல வருடங்களாக OCR தொழில்நுட்பத்தை பல விதங்களில் பல்வேறு பணிகளுக்குப் பயன்படுத்தி வருகிறோம்.
புத்தகங்களை வடிவமைக்க உதவும் டிடிபி தொழில்நுட்பத்துக்கு முந்தையகாலத்தில் பிரின்ட் செய்த புத்தகங்களுக்கு கம்ப்யூட்டரில் சோர்ஸ் ஃபைல் இருக்காது அல்லவா? அந்தப் புத்தகங்களை ஸ்கேன் செய்து இமேஜ் ஃபைல்களாகபதிவு செய்து, மீண்டும் அவற்றை டாக்குமென்ட் ஃபைல்களாக மாற்றி இ-கன்டன்ட் மற்றும் இ-புத்தகங்களை உருவாக்கி இருக்கிறோம்.
இந்தியில் உள்ள புத்தகங்களை OCR மூலம் டாக்குமென்ட் ஃபைலாக மாற்றம் செய்து, அவற்றைப் பயன்படுத்தி இந்தி மொழியிலேயே வெப்சைட்டை வடிவமைத்திருக்கிறோம்.
OCR என்றால் என்ன?
OCR என்பது, Optical Character Recognition.
OCR மூலம் ஸ்கேன் செய்த இமேஜ் ஃபைல்களை நாம் எடிட் செய்யும் டாக்குமென்ட் ஃபைல்களாக மாற்ற முடியும். அதாவது நாம் நேரடியாக மாற்றம் செய்ய முடியாத இமேஜ்களில் உள்ள எழுத்துக்களை, OCR தொழில்நுட்பத்தைப் பயன்படுத்தி அவற்றை டாக்குமென்ட் ஃபைல்களாக மாற்றம் செய்துகொண்டால், அவை டைப் செய்த தகவல்களாக மாறிவிடும். அதில் தேவையான மாற்றங்களைச் செய்துகொள்ளலாம்; புதிதாக டைப் செய்து இணைக்கலாம்; தேவை இல்லாதவற்றை நீக்கிக்கொள்ளலாம்.
கூகுள் டிரைவ் கொடுக்கும் OCR வசதி
சுமார் 248 உலக மொழிகளில் பயன்படுத்தப்படும் கூகுளில் OCR தொழில்நுட்பம் பெரும்பாலான இந்திய மொழிகளுக்கும் சப்போர்ட் செய்கிறது என்பது குறிப்பிடத்தக்கது.
கூகுள் நிறுவனத்தின் OCR தொழில்நுட்பம் மூலம், .JPG, .PNG, .GIF போன்ற இமேஜ் ஃபைல்களை தனித்தனியாகவோ அல்லது PDF ஃபைல்களில் உள்ள இமேஜ் ஃபைல்களை ஒட்டுமொத்தமாகவோ டெக்ஸ்ட் டாக்குமென்ட்டுகளாக மாற்ற செய்ய முடியும்.
அவற்றை நம் பிற பயன்பாடுகளுக்கு உபயோகப்படுத்துவதற்கு முன்னர் ஒருமுறை புரூஃப் பார்த்துக்கொள்வது சிறந்தது. ஏனெனில், ஓரிரு எழுத்துக்கள் சரியாக மாற்றம் அடையாமல் இருக்கலாம்.
OCR மூலம் கன்வெர்ட் செய்யப் பயன்படுத்தப்படும் இமேஜ் ஃபைல்களுக்கு கூகுள் சில விதிமுறைகளைக் கொடுத்துள்ளது.
இமேஜ் ஃபைல்கள், ஸ்கேன் செய்யப்பட்டவையாக இருக்கலாம்.
டிஜிட்டல் கேமிரா அல்லது மொபைலில் புகைப்படம் எடுத்ததாகவும் இருக்கலாம்.
ஹை-ரெசல்யூஷன் (High Resolution) இமேஜ் ஃபைல்களாக இருக்க வேண்டும்.
ஃபைலின் அளவு 2 MB ஆக இருக்க வேண்டும்.
அதிகபட்சம் 10 பக்கங்கள்கொண்ட PDF ஃபைல்கள்
இமேஜ்களை நீளவாக்கிலோ (Portrait) அல்லது அகலவாக்கிலோ (Landscape), ஒரே திசையில் (Orientation) இருக்க வேண்டும். 10 பக்கங்கள் கொண்ட PDF ஃபைல்களாக இருந்தால் அத்தனை பக்கங்களும் ஒரே திசையில் இருந்தால்தான் அவை பிழையின்றி டெக்ஸ்ட் டாக்குமென்ட்டாக மாற்றம் செய்யப்படும்.
கூகுள் டிரைவின் OCR தொழில்நுட்பத்தைப் பயன்படுத்துவது எப்படி?
- drive.google.com என்ற வெப்சைட் மூலம் கூகுளில் சைன் இன் செய்துகொள்ள வேண்டும்.
- இப்போது கூகுள் டிரைவின் வெப்சைட் வெளிப்படும்.
- இதில் My drive என்ற விவரத்தின் மீது மவுசின் பாயின்ட்டரை வைத்து வலப்புற பட்டனால் கிளிக் செய்தால் சிறிய பாப்-அப் விண்டோ கிடைக்கும். அதில் Upload Files… என்ற விவரத்தை கிளிக் செய்துகொள்ள வேண்டும்.
- இப்போது தேவையான ஃபைலை நம் கம்ப்யூட்டரில் இருந்து அப்லோட் செய்துகொள்ள வேண்டும். உதாரணத்துக்கு, இங்கு Preface13.JPG என்ற ஃபைலை அப்லோட் செய்துள்ளோம். இந்த இமேஜில் உள்ள தகவல்கள் இந்தி மொழியில் உள்ளன.
- இந்த ஃபைல் மீது மவுசின் பாயின்ட்டரை வைத்து வலப்புற பட்டனால் கிளிக் செய்தால் கிடைக்கும் விண்டோவில் Open with > Google Docs என்ற மெனுவிவரத்தைத் தேர்ந்தெடுத்துக்கொள்ள வேண்டும்.
- உடனடியாக அந்த ஃபைல் கூகுள் டாக்குமென்ட் சாஃப்ட்வேரில் திறக்கப்படும். அதில் மேல்பக்கம் நாம் தேர்ந்தெடுத்த இமேஜ் ஃபைல் வெளிப்பட்டிருக்கும். அதன் கீழ் டாக்குமென்ட்டாக மாற்றம் அடைந்த ஃபைல் வெளிப்பட்டிருக்கும். இமேஜ் ஃபைலை கிளிக் செய்து டெலிட் செய்துகொள்ளலாம்.
- உதாரணத்துக்கு, இமேஜ் ஃபைலில் உள்ள தமிழ் மொழித் தகவல்களை டாக்குமென்ட் ஃபைலாக மாற்றியுள்ளதைப் பார்வையிடவும். இப்படி மாற்றம் செய்த டாக்குமென்ட் ஃபைல்களை, கூகுள் டிரைவில் இருந்தபடியே தேவையான நபர்களுக்கு இமெயிலில் அனுப்பலாம். சமூக வலைதளங்களில் ஷேர் செய்துகொள்ளலாம் அல்லது கூகுள் டிரைவில் இருந்து நம் கம்ப்யூட்டருக்கு டவுன்லோட் செய்துகொள்ளலாம்.
நினைவில் கொள்க:
இந்த உதாரணத்தில் இந்தி மற்றும் தமிழ் மொழியில் ஸ்கேன் செய்யப்பட்ட இமேஜ் ஃபைல்களை டாக்குமென்ட் ஃபைல்களாக மாற்றம் செய்து விளக்கி உள்ளேன். இதைப்போல, இமேஜ் ஃபைல்களில் உள்ள தகவல்கள் எந்த மொழியில் இருந்தாலும் அவற்றை டாக்குமென்ட் ஃபைல்களாக மாற்றம் செய்து பயன்படுத்த முடியும். தற்சமயம் 248 உலக மொழிகளுக்கு கூகுள் OCR சப்போர்ட் செய்கிறது.
PDF ஃபைலில் உள்ள முழு புத்தகத்தையும் டாக்குமென்ட் ஃபைலாக மாற்றம் செய்யும் ஆராய்ச்சிகள் நடைபெற்று வருகின்றன.
இப்படி இமேஜ் ஃபைலில் இருந்து வேர்ட் டாக்குமெண்ட்டாக மாற்றம் செய்த ஃபைலை திரும்பவும் பிழைத்திருத்தம் செய்து பயன்படுத்துவது நல்லது.
( ‘Vikatan.Com’ -ல் ‘கம்ப்யூட்ராலஜி’ என்ற தலைப்பில் நான் தொடராக எழுதிவந்த தொகுப்பு பின்னர் அதே தலைப்பில் விகடன் வாயிலாகவே புத்தகமாக வெளியானது. அதில் இடம்பெற்ற ஒரு கட்டுரை இது)
அன்புடன்
காம்கேர் கே. புவனேஸ்வரி, CEO
Compcare Software Private Limited
மார்ச் 26, 2019
‘கம்ப்யூட்ராலஜி’ – நான் எழுதிய 100-வது புத்தகம்.
இதில் தெரிந்ததில் தெரியாத 100 தொழில்நுட்ப விவரங்களை Step by Step விளக்கத்துடன் எழுதியிள்ளேன்.
விகடன் பதிப்பகம் வாயிலாக வெளியான புத்தகம்.
இந்தப் புத்தகம் books.vikatan.com என்ற லிங்கிலும், அமேசானிலும் கிடைக்கும்.