Hi Gourab,<div><br></div><div>As I am also interested in the project "Develop a system with multi-lingual capabilities in order to receive answer to user specific queries", I have had some discussions on this with Sankarshan which you can browse through the archives. Also, you can find my proposal at - <a href="http://www.google-melange.com/gsoc/proposal/review/google/gsoc2012/abhi7/20019">http://www.google-melange.com/gsoc/proposal/review/google/gsoc2012/abhi7/20019</a> which might help you in giving a broad idea of the problem and what I think can be a good solution.</div>
<div><br></div><div>I welcome your comments on the list as you won't be able to comment there and sincerely hope that my proposal would help you as well in framing yours :)</div><div><br></div><div>Also, regarding your the approach that you have suggested I have a doubt. The approach suggested on the lines of an information retrieval may not work so well (or may be required) for the problem. As a very specific domain of FAQ is targeted, we can probably narrow down our steps to well defined approaches. <b>For example, we may not require the mentioned dataset as we might work in a way that no conversion from English - Bangla or vice versa is required.</b></div>
<div><br></div><div>Regards</div><div>Abhishek<br><br><div class="gmail_quote">On 28 March 2012 21:24, Gourab Saha <span dir="ltr"><<a href="mailto:gourab.isikolkata@gmail.com">gourab.isikolkata@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br><br>I am Gourab here.As I am on the process to draft my formal project proposal, I have few questions regarding some issues.<br>
As previously said I am seriously interested to work on a project on the field of  "information retrieval" as a part of GSOC2012.<br>
and even continue to work on that field to for my M.Tech thesis.<br> <br>During the previous week I did a good study on the following project ideas you have floated on this area.<br><br><br>1. Improving models for Cross Language Text Re-use<br>

2. Develop a system with multi-lingual capabilities in order to receive answer to user specific queries<br>3. Improving information retrieval methods for OCR data sets consisting of indic scripts<br><br> I have talked with my professors  having similar field of research<br>

interest.As per their valuable suggestions on the above mentioned project ideas I am on my way to draft a<br> formal proposal.<br><br>As you have raised the concern over the license issue over the dataset/tools available, I have clarified from my<br>

professor, RISOT data set(RISOT)(On which I am planing to work) is freely available and not constrained by any license.<br>The lemur toolkit is complete open source framework for IR software development. and Trec_eval, a standard tool for <br>

performance evolution is also completely open source.<br><br>I am writing my proposals in a brief here . Kindly give suggestions how it can be further improved.<br><br>The key idea is to propose and implement a method to improve the cross-language information retrieval with a<br>

pair of languages(Bengali/English).We have RISOT data set containing article from ABP bengali news paper corpus <br>from 2004-2006 as well as The Telegraph english newspaper corpus. It will take the query in english and retrieve the<br>

results from the bengali corpus . The above mentioned will go through a process of implementation translation,transliteration,<br>blind relevance feedback,query expansion and finally the information retrieval.I am aiming for a well-accepted  accuracy<br>

measure.<br><br>I have few questions other than technical issues of the project.<br><br>1. Apart  from  mentors from the organization(<a href="http://ankur.org.in/" target="_blank">http://ankur.org.in/</a>) can I have a mentor from my institution/foreign university? However They will not be<br>

    anyway related to GSOC2012.<br><br>2. If my proposal is accepted and my research in this summer lead to paper publication is there any type of constraints/to-dos from<br>    GSOC or from your organization for publishing a paper?As far I understood Google doesn't have any problem as long as I release my <br>

    code under open source license.<br><br> Kindly let me know any other issues regarding the proposal(Details will be included in the final proposal) or any other impediments over <br>any other related issues . Kindly give your valuable feedback,as I am on my way to draft my formal proposal.<br>

I am sincerely hoping to work with you in this summer.<br><br>If you have any questions or concerns, please feel free to send me an email gourab.isikolkata@gmail .com or call me at 9051110501.<br><br>Thanks<span class="HOEnZb"><font color="#888888"><br>
<br>Gourab Saha<br>
M.Tech(Computer Science)<br>Indian Statistical Institute,Kolkata<br><a href="mailto:gourab.isikolkata@gmail.com" target="_blank">gourab.isikolkata@gmail.com</a><br>(+91)9051110501<br> <br> <br>
</font></span><br>_______________________________________________<br>
Project-ideas mailing list<br>
<a href="mailto:Project-ideas@lists.ankur.org.in">Project-ideas@lists.ankur.org.in</a><br>
<a href="http://lists.ankur.org.in/listinfo.cgi/project-ideas-ankur.org.in" target="_blank">http://lists.ankur.org.in/listinfo.cgi/project-ideas-ankur.org.in</a><br>
<br></blockquote></div><br></div>