NF : Project : Tamil OCR Implementation - noolahamfoundation/ocr-tooling GitHub Wiki
- Project Title/செயற்திட்ட தலைப்பு: NF Tamil OCR Implementation / நூ.நி தமிழ் எழுத்துணரியாக்கம் செயற்திட்டம்
- Project Number/செயற்திட்ட இலக்கம்:
- Project Location/செயற்திட்ட இடம்:
- Department/Sector/செயற்திட்டப் பிரிவு: தொழில்நுட்பம்
- Implementing Agency and Contribution/நிறைவேற்றும் நிறுவனம் மற்றும் பங்களிப்பு: நூலக நிறுவனம்
- Grant Agency and Contribution/நிதியளிக்கும் நிறுவனம் மற்றும் பங்களிப்பு: நூலக நிறுவனம்
- Start and End Date/தொடக்க திகதியும் முடிவுத் தொகுதியும்: Jan 2016 - Dec 2016
- Responsible Stakeholders/முதன்மைப் பங்காளர்கள்: நூலக நிறுவனம்
நூலக நிறுவனத்தின் ஊழியர்களுக்கும், தன்னார்வலர்களுக்கும், இந்நிறுவனத்தின் செயற்திட்டங்களில் ஒன்றான, நூலக நிறுவன தமிழ் எழுத்துணரியாக்கச் செயலாக்கம் (NF Tamil OCR Implementation) என்ற செயற்திட்டம் பற்றிய அறிமுகத்தை வழங்குவதும், அந்தச் செயற்திட்டத்தை முன்னெடுப்பதற்குத் தேவையான தகவல்களைத் தொகுப்பதும் ஆகும். இந்த ஆவணம் தொழினுட்ப அணி, ஊழியர்கள், தன்னார்வலர்கள் ஆகியோருக்கும் பயன்படும்.
நூலகத்தின் உள்ளடக்கம் தற்போது pdf வடிவிலேயே உள்ளன. தமிழில் எழுத்துணரியாக்கம் செய்வதற்கான நுட்பம் கூகிள் ஆவணக api ஊடாகவும், சீறீனீவாசன் உருவாக்கிய OCR4wikisource சாத்தியமாக்கியது. இவற்றைப் பயன்படுத்தியும், மேலதிக கருவியாக்கம் ஊடகவும் நூலக உள்ளடக்கத்தை எழுத்துணரியாக்கம் செய்து html வடிவில் பகிர்வதே இந்தச் செயற்திட்டத்தின் நோக்கம் ஆகும். எழுத்துணரியாக்கம் உள்ளடக்கத்தை பயனர்கள் இலகுவாகத் தேட, தரவிறக்க, பயன்படுத்த உதவுகின்றது.
- நூலகப் பயனர்கள்
- நூலக நுட்பச் செயலாக்கம்
- நூலக தொடர்பாடல் செயலாக்கம்
- தமிழ்க் கணிமை ஆர்வலர்கள்
எண்ணிம நூலக, ஆவணக உள்ளடக்கத்தை பயனர்களுக்குக் அணுக்கப்படுத்தல் நூலக நிறுவனத்தின் முக்கிய நோக்கங்களில் ஒன்றாகும். தேட, தரவிறக்க, பயன்படுத்த எழுத்துணரியாகக்ம் உதவிசெய்து அந்த நோக்கத்தைச் செயற்படுத்த உதவும்.
நடிபங்கு/Role | பொறுப்பு/Responsibility | அறிக்கையிடல்/Reporting |
Staff Coordinator - Gajani ([email protected]) | அறிக்கையிடல் | RB/வழிகாட்டுநர் சபை |
Project Manager/Coordinator - Thakaval-Uzhavan ([email protected]) | செயற்திட்டத்தை நிறைவேற்றல், மேலாண்மைச் செய்தல், | Staff Coordinator/to RB if required |
Project Designer - NF Technology/Natkeeran ([email protected]) | Project Documentation, Design, Evaluation | RB/வழிகாட்டுநர் சபை |
Project Oversight - RB/வழிகாட்டுநர் சபை | Project Documentation, Design, Evaluation | |
Developer/DevOps - Thakaval-Uzhavan ([email protected]), Natkeeran ([email protected]) | Preparation of input data files; Preparation of html by executing the scripts; uploading to server, creating wiki page; creating sitemap | Project Manager |
Subject Matter Experts - Shrinivasan T, Sundar Lakshmanan | Provide input/support with regards to Tamil OCR tooling |
- Develop tooling to do OCR implementation using Google OCR engine.
- The goal is to automate much of the work as possible.
- Develop input files, execute scripts
- Phase 1 of this project involves creation of the scripts to do batch ocr. The scripts must be released to public under FOSS license GPL.
- Phase 1 of this project aims to ocr 5000 documents
ஒவ்வொரு வாரமும் இதனைக் கவனிக்கும் பணிக் குழுவுக்கு (NF : Project : Tamil OCR Implementation - Working Group மின்னஞ்சல் இழை) செயற்திட்ட நிலை அறிக்கைகள் வழங்கப்படுகின்றன. இந்த அறிக்கைகளை Staff coordinator மாதாந்த அறிக்கைகளில் தொகுத்து வழிகாட்டுநர் சபைக்கு வழங்குகிறார்..
- Jan 2016 - Dec 2016
- Natkeeran has committed to fund the initial phase.
- The initial pilot phase provide a stipend of 10 000 Indian Rupees for Thakaval-Uzhavan.
We don’t control the Google OCR quality. It has been evaluated as very useful and practical. It can be assumed that the quality of the pdf provided contributes to the quality.
The load to the noolaham.net server may increase.
எழுத்துணரியாக்கத் தொழினுட்பங்களையும், தொடர்ந்து அவற்றில் ஏற்படுத்தப்படும் மாற்றங்களையும், இந்த github பக்கத்தில் அவ்வப்போது இற்றைப்படுத்தப்படுகின்றன.