In point 2. What I meant was, should I look at available corpora. A fairly large corpus for Indian languages is EMILIE <a href="http://www.lancs.ac.uk/fass/projects/corpus/emille/" target="_blank">http://www.lancs.ac.uk/fass/projects/corpus/emille/</a>. Would I be able to use that? (and others available)<br>


<br><div class="gmail_quote">On Fri, Apr 19, 2013 at 11:33 AM, Alok Kothari <span dir="ltr"><<a href="mailto:kothari.alok@gmail.com" target="_blank">kothari.alok@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Hello<br><br>I am Alok Kothari. <font><font><font>I am <font>interested in applying to </font>GSoc 2013 and <font>to work with Ankur</font>.<br><br>Background: I <font>graduated from IIT Kharapur in 2009 and have been involved in research in IR/NLP and Ma<font>chine Learning </font>for nearly 2 years.</font></font></font><br>



<br></font>I was interested in the project on '<font>Improving information retrieval methods for OCR data sets consisting of Indic scripts'<br><br><font>1. I was wonde<font>ring whether I could <font>have a look at or have some <font>i<font>ndication</font> to the quality of files available<font>. This will give me some idea about the kinds of error<font><br>



<br><font>2. <font>In the project c<font>an I </font></font>assume to have</font> access to some 'clean' corpus so that I can use that towards correcting errors in digitised corpus. for e.g. I could learn n-grams from <font>the <font>know 'correct' text to improve possible errors in OCR<font> text. <font>There are some ways to obtain such corpus.</font></font></font></font></font></font><br>



<br><font><font>3</font>. Does the <font>IR system have to be implemented on top of Lucene<font> (or other open source software) or can be completely stand alone.<br><br><font>Thank You!<br><br><font>Best,</font><br></font><font>Alok</font><br>



<br></font></font></font><br></font></font></font></font></font><br>
</blockquote></div><br>