NF : Project : Tamil OCR Implementation - noolahamfoundation/ocr-tooling GitHub Wiki

Table of Contents

செயற்திட்டச் சுருக்கம்

  • Project Title/செயற்திட்ட தலைப்பு: NF Tamil OCR Implementation / நூ.நி தமிழ் எழுத்துணரியாக்கம் செயற்திட்டம்
  • Project Number/செயற்திட்ட இலக்கம்:
  • Project Location/செயற்திட்ட இடம்:
  • Department/Sector/செயற்திட்டப் பிரிவு: தொழில்நுட்பம்
  • Implementing Agency and Contribution/நிறைவேற்றும் நிறுவனம் மற்றும் பங்களிப்பு: நூலக நிறுவனம்
  • Grant Agency and Contribution/நிதியளிக்கும் நிறுவனம் மற்றும் பங்களிப்பு: நூலக நிறுவனம்
  • Start and End Date/தொடக்க திகதியும் முடிவுத் தொகுதியும்: Jan 2016 - Dec 2016
  • Responsible Stakeholders/முதன்மைப் பங்காளர்கள்: நூலக நிறுவனம்

இந்த ஆவணத்தின் வாசகர்கள்

நூலக நிறுவனத்தின் ஊழியர்களுக்கும், தன்னார்வலர்களுக்கும், இந்நிறுவனத்தின் செயற்திட்டங்களில் ஒன்றான, நூலக நிறுவன தமிழ் எழுத்துணரியாக்கச் செயலாக்கம் (NF Tamil OCR Implementation) என்ற செயற்திட்டம் பற்றிய அறிமுகத்தை வழங்குவதும், அந்தச் செயற்திட்டத்தை முன்னெடுப்பதற்குத் தேவையான தகவல்களைத் தொகுப்பதும் ஆகும். இந்த ஆவணம் தொழினுட்ப அணி, ஊழியர்கள், தன்னார்வலர்கள் ஆகியோருக்கும் பயன்படும்.

நோக்கங்கள், இலக்குகள்

நூலகத்தின் உள்ளடக்கம் தற்போது pdf வடிவிலேயே உள்ளன. தமிழில் எழுத்துணரியாக்கம் செய்வதற்கான நுட்பம் கூகிள் ஆவணக api ஊடாகவும், சீறீனீவாசன் உருவாக்கிய OCR4wikisource சாத்தியமாக்கியது. இவற்றைப் பயன்படுத்தியும், மேலதிக கருவியாக்கம் ஊடகவும் நூலக உள்ளடக்கத்தை எழுத்துணரியாக்கம் செய்து html வடிவில் பகிர்வதே இந்தச் செயற்திட்டத்தின் நோக்கம் ஆகும். எழுத்துணரியாக்கம் உள்ளடக்கத்தை பயனர்கள் இலகுவாகத் தேட, தரவிறக்க, பயன்படுத்த உதவுகின்றது.

முக்கிய பங்கேற்ப்பாளர்கள்

  • நூலகப் பயனர்கள்
  • நூலக நுட்பச் செயலாக்கம்
  • நூலக தொடர்பாடல் செயலாக்கம்
  • தமிழ்க் கணிமை ஆர்வலர்கள்

நூலக நிறுவன நோக்கங்கள்/வியூகங்களூடன இணைவு *

எண்ணிம நூலக, ஆவணக உள்ளடக்கத்தை பயனர்களுக்குக் அணுக்கப்படுத்தல் நூலக நிறுவனத்தின் முக்கிய நோக்கங்களில் ஒன்றாகும். தேட, தரவிறக்க, பயன்படுத்த எழுத்துணரியாகக்ம் உதவிசெய்து அந்த நோக்கத்தைச் செயற்படுத்த உதவும்.

நடிபங்குகளும் பொறுப்புக்களும் *

நடிபங்கு/Role பொறுப்பு/Responsibility அறிக்கையிடல்/Reporting
Staff Coordinator - Gajani ([email protected]) அறிக்கையிடல் RB/வழிகாட்டுநர் சபை
Project Manager/Coordinator - Thakaval-Uzhavan ([email protected]) செயற்திட்டத்தை நிறைவேற்றல், மேலாண்மைச் செய்தல், Staff Coordinator/to RB if required
Project Designer - NF Technology/Natkeeran ([email protected]) Project Documentation, Design, Evaluation RB/வழிகாட்டுநர் சபை
Project Oversight - RB/வழிகாட்டுநர் சபை Project Documentation, Design, Evaluation
Developer/DevOps - Thakaval-Uzhavan ([email protected]), Natkeeran ([email protected]) Preparation of input data files; Preparation of html by executing the scripts; uploading to server, creating wiki page; creating sitemap Project Manager
Subject Matter Experts - Shrinivasan T, Sundar Lakshmanan Provide input/support with regards to Tamil OCR tooling

செயற்பரப்பும் செயற்பாடுகளும்

  • Develop tooling to do OCR implementation using Google OCR engine.
  • The goal is to automate much of the work as possible.
  • Develop input files, execute scripts

திட்ட முடிவு வரையறை

  • Phase 1 of this project involves creation of the scripts to do batch ocr. The scripts must be released to public under FOSS license GPL.
  • Phase 1 of this project aims to ocr 5000 documents

KPIs, அறிக்கையிடல், தொடர்பாடல் *

ஒவ்வொரு வாரமும் இதனைக் கவனிக்கும் பணிக் குழுவுக்கு (NF : Project : Tamil OCR Implementation - Working Group மின்னஞ்சல் இழை) செயற்திட்ட நிலை அறிக்கைகள் வழங்கப்படுகின்றன. இந்த அறிக்கைகளை Staff coordinator மாதாந்த அறிக்கைகளில் தொகுத்து வழிகாட்டுநர் சபைக்கு வழங்குகிறார்..

கால அட்டவணையும் மைல்கற்களும்

  • Jan 2016 - Dec 2016

வரலவுசெலவு *

நிதி வள மூலங்கள் *

  • Natkeeran has committed to fund the initial phase.
  • The initial pilot phase provide a stipend of 10 000 Indian Rupees for Thakaval-Uzhavan.

சீர்தரங்களும் தரக்கட்டுப்பாடும்

We don’t control the Google OCR quality. It has been evaluated as very useful and practical. It can be assumed that the quality of the pdf provided contributes to the quality.

இடர் மேலாண்மை

The load to the noolaham.net server may increase.

Issue/Change Management

எழுத்துணரியாக்கத் தொழினுட்பங்களையும், தொடர்ந்து அவற்றில் ஏற்படுத்தப்படும் மாற்றங்களையும், இந்த github பக்கத்தில் அவ்வப்போது இற்றைப்படுத்தப்படுகின்றன.

⚠️ **GitHub.com Fallback** ⚠️