Thanks for your reply!<br><br>
<div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im"><br>
> Background: I graduated from IIT Kharapur in 2009 and have been involved in<br>
> research in IR/NLP and Machine Learning for nearly 2 years.<br>
<br>
</div>Would it be possible to provide links to any papers/presentations or,<br>
code that you have published?<br></blockquote><div><br>Yes definetely. Unfortunately my oldwebsite is down at the organisation i worked at. It contained more details of the projects.<br><br>However here are the links to papers:<br>

<br><a href="https://dl.acm.org/citation.cfm?id=2010069&dl=ACM&coll=DL&CFID=316248085&CFTOKEN=31366376">https://dl.acm.org/citation.cfm?id=2010069&dl=ACM&coll=DL&CFID=316248085&CFTOKEN=31366376</a><br>

<a href="http://www.aclweb.org/anthology/D11-1073">http://www.aclweb.org/anthology/D11-1073</a><br><a href="http://www.icwsm.org/2013/program/accepted-papers/">http://www.icwsm.org/2013/program/accepted-papers/</a>   A recent one ('Detecting Comments on News Articles in Microblogs')<br>

<br> <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="im"><br>
> 1. I was wondering whether I could have a look at or have some indication to<br>
> the quality of files available. This will give me some idea about the kinds<br>
> of error<br>
<br>
</div>The project idea requires the interested candidate to propose within<br>
the scope of the project the kind of errors the initial<br>
iteration/release will handle.<br></blockquote><div><br>I would be happy to propose some methods to tackle errors. I was wondering whether I could have a look at the digitized text corpora itself. for e.g. I know there can be a wrongly recognized characters, spelling mistakes and such. However I thought I would get a better idea about other errors if I saw some of the documents for which such search would be built.  Do you think this is possible?<br>

 </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im"><br>
> 3. Does the IR system have to be implemented on top of Lucene (or other open<br>
> source software) or can be completely stand alone.<br>
<br>
</div>I was hoping that we would be able to utilize ElasticSearch or,<br>
similar. Lucene is an option too.<br>
<br></blockquote><div><br>I will look at ElasticSearch. <br><br>Thanks again!<br><br>Alok<br></div><br></div>