Hi Sanskarshan,<div><br><div>>I will take a look at this over the weekend (I am between cities and</div><div>>it is a bit difficult for me now). Is the code for the implementation<br>>available as well?</div><div>
<br></div><div>Sure not a problem, we can discuss more during the weekend. Sampark is a government funded project and the code for the implementation is not available as per I now we can look into details for same.</div><div>
<br></div><div>>The initial idea was to check if a system like Moses (Statistical MT)<br>>could be enhanced to be able to handle translation of content at<br>>scale. I'd look forward to what you think is possible.</div>
<div><br></div><div>We can start by looking how Moses performs and do the error analysis and make improvisation over same using the necessary methods . What data are we using for learning can you provide more details about the corpus that we have in terms of number of sentences.</div>
<div><br></div><div> I was also thinking it would be a good idea to first do a ground research about other English-Bengali systems and use the knowledge from same.</div><div><br></div><div>Two important systems which I found are as follows-</div>
<div>1) <a href="http://tdil-dc.in/components/com_mtsystem/CommonUI/homeMT.php">http://tdil-dc.in/components/com_mtsystem/CommonUI/homeMT.php</a> this is a government project and it's more on hybrid mechanism kind of a pipeline architecture, we can discuss the details as per the need I know the architecture and other detailed information about same.</div>
<div><br></div><div>2)Anubadok- (<a href="http://bengalinux.sourceforge.net/cgi-bin/anubadok/index.pl">http://bengalinux.sourceforge.net/cgi-bin/anubadok/index.pl</a>) it seems this is an open source project and it's using some of the resources been build by Ankur organization the English-Bengali dictionary (<a href="http://www.bengalinux.org/cgi-bin/abhidhan/statistics.pl">http://www.bengalinux.org/cgi-bin/abhidhan/statistics.pl</a>) so if you have some more details about same then it will be great. I downloaded the Anubadok system and is trying to have some hand-on experience on same and look into the source code.</div>
<div><br></div><div>Apart from this there is also an apertium project (<a href="http://wiki.apertium.org/wiki/Apertium-bn-en">http://wiki.apertium.org/wiki/Apertium-bn-en</a>) for English-Bengali language pair which has some of the tools and resources available.</div>
<div><br></div><div>I have few queries-</div><div>What are we aiming by this project as far as I see there can be 3 different aspects-</div><div>1) We want to begin from scratch and use statistical mt and see how it works for English-Bengali language pair and over this statistical approach use other knowledge to learn rules and make a translation model / prototype.</div>
<div><br></div><div>2) Search and based on the available other models and resources such as chunker, pos tagger which are openly available make a model combining the available resources and build a MT system.</div><div><br>
</div><div>3) Take some of the exiting system and improve over same using statistical approaches.</div><div><br></div><div>Sorry for a big mail but wanted to cover all details.</div><div><br></div><div>Looking forward to hear from you.</div>
<div><br></div><div>Regards</div><div>Piyush</div><div><br><div class="gmail_quote">On Wed, Apr 17, 2013 at 9:47 PM, Sankarshan Mukhopadhyay <span dir="ltr"><<a href="mailto:sankarshan.mukhopadhyay@gmail.com" target="_blank">sankarshan.mukhopadhyay@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Wed, Apr 17, 2013 at 6:04 PM, piyush arora <<a href="mailto:piyusharora07@gmail.com">piyusharora07@gmail.com</a>> wrote:<br>

> I have done some projects on natural language processing, machine<br>
> translations and information retrieval. I have worked on the Machine<br>
> Translation project <a href="http://sampark.iiit.ac.in/sampark/web/index.php/content" target="_blank">http://sampark.iiit.ac.in/sampark/web/index.php/content</a><br>
> where the aim is to build MT system for 18 indian language pairs.<br>
<br>
</div>I will take a look at this over the weekend (I am between cities and<br>
it is a bit difficult for me now). Is the code for the implementation<br>
available as well?<br>
<div class="im"><br>
> I worked on the similar lines of tranfer-grammar rules. I have a bit of<br>
> experience with transfer rules for Hindi, Telugu and a bit of Bengali<br>
> Language.<br>
><br>
> So would be great if can get more information about the project and other<br>
> details.<br>
<br>
</div>The initial idea was to check if a system like Moses (Statistical MT)<br>
could be enhanced to be able to handle translation of content at<br>
scale. I'd look forward to what you think is possible.<br>
<br>
<br>
<br>
--<br>
sankarshan mukhopadhyay<br>
<<a href="https://twitter.com/#!/sankarshan" target="_blank">https://twitter.com/#!/sankarshan</a>><br>
</blockquote></div><br></div></div>