<div dir="ltr">Hi,<div><br></div><div style>    Thank You. I am interested in doing some prior assignment like a bug fix or some feature addition.</div><div style>What is it that I can do? I want to work on "<b style="font-size:13.333333969116211px;font-family:'Times New Roman';font-weight:normal"><span style="font-family:Arial;vertical-align:baseline;white-space:pre-wrap">Improving information retrieval methods for OCR data sets consisting of Indic scripts."</span></b></div>
<div style><br></div><div style>Thanks You,</div><div style>Aarti Dwivedi</div><div style>(2nd year Undergraduate,</div><div style>IIT Roorkee)</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Sun, Apr 21, 2013 at 7:45 PM, Bhavani Shankar R <span dir="ltr"><<a href="mailto:bhavi@ubuntu.com" target="_blank">bhavi@ubuntu.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="HOEnZb"><div class="h5">On Sun, Apr 21, 2013 at 2:47 AM, Aarti K. Dwivedi<br>
<<a href="mailto:ellydwivedi2093@gmail.com">ellydwivedi2093@gmail.com</a>> wrote:<br>
> Hi,<br>
><br>
>      I am an applicant for GSoC 2013. I am enthusiastic about working on<br>
> "Improving information retrieval methods for OCR data sets consisting of<br>
> Indic scripts."<br>
> Before I posted the proposal I wanted to discuss what I have framed on the<br>
> basis of my understanding of the project idea.<br>
><br>
> Synopsis:<br>
><br>
> 1. My first step would be familiarizing myself with the current methods and<br>
> algorithms  that are used in retrieval of information from digitized text<br>
> and also with their shortcomings.<br>
><br>
> 2. Figure out the reasons for shortcomings and the degradation of text.<br>
><br>
> 3. Propose and implement a retrieval system that does not lead to<br>
> degradation, i.e., improve the text processing.<br>
><br>
> 4. Improve the existing search algorithms by weeding out inefficiencies and<br>
> propose additions while increase efficiency.<br>
><br>
><br>
> Implementation details of the project:<br>
><br>
> 1. Test the current methods of retrieval of information from digitized text<br>
> to find out specific problems and areas of shortcomings. File these as<br>
> issues. The shortcomings are described in terms of technical details of<br>
> where the search falls short.<br>
><br>
> 2. Remove errors based on character level and make the search independent of<br>
> character level error.<br>
><br>
> 3. Develop a system to classify documents according to tags. Addition of<br>
> tags to the documents would help in narrowing down the search.<br>
><br>
> 4. Reduce the error by predicting words when characters are perceived to be<br>
> inaccurate.<br>
><br>
> 5. Continue improving search implementation as the errors come out.<br>
><br>
><br>
> Phases/Milestones with dates:<br>
><br>
> 1. June 17- June 27: Filter out errors in specific terms and find out their<br>
> causes.<br>
><br>
> 2. June 27- July 7: Make the retrieval independent of character level, i.e.,<br>
> improve the recognition of words as a whole.<br>
><br>
> 3. July 7- July 24: Workaround other problems in the current methods of<br>
> standardized and structured text processing.<br>
><br>
> 4. July 24- August 1: Implement tagging system. (The bot decides from a list<br>
> of pre-decided tags and assigns it to the documents on the basis of the<br>
> first few pages, thus reducing the amount of full text search that needs to<br>
> be done).<br>
><br>
> 5. August 1- August 12: Implement information retrieval by text<br>
> summarization.<br>
><br>
> 6. August 12- August 22: Implement search on the basis of text<br>
> summarization.<br>
><br>
> 7. August 22- September 2: Implement the error correction methods to improve<br>
> performance.<br>
><br>
> 8. September 2- September 16: Find out loopholes in the implemented system<br>
> and improve upon them.<br>
><br>
><br>
>  Is there something that I have missed in understanding the project? I would<br>
> be happy to receive any clarifications on the project.<br>
><br>
<br>
</div></div>Hi Aarti,<br>
<br>
Thanks for your introduction. There are many threads going on on the<br>
mailing list regarding the same subject<br>
<br>
<a href="http://lists.ankur.org.in/pipermail/project-ideas-ankur.org.in/2013-April/author.html" target="_blank">http://lists.ankur.org.in/pipermail/project-ideas-ankur.org.in/2013-April/author.html</a><br>
<br>
Kindly request you to go through the same and ask questions if there<br>
are any over and above the same<br>
<br>
Regards,<br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
--<br>
Bhavani Shankar<br>
Ubuntu Developer       |  <a href="http://www.ubuntu.com" target="_blank">www.ubuntu.com</a><br>
<a href="https://launchpad.net/~bhavi" target="_blank">https://launchpad.net/~bhavi</a><br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr">Aarti K. Dwivedi<div><br></div></div>
</div>