<div>More specifically, the discussion aligns with the following project.</div><div><br></div><a href="https://github.com/ankur-india/ankur-india/wiki/Project-Ideas#add-language-grammar-rules-to-a-machine-translation-system">https://github.com/ankur-india/ankur-india/wiki/Project-Ideas#add-language-grammar-rules-to-a-machine-translation-system</a>  <div>
<br></div><div>regards</div><div>Runa<br><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Erik Moeller</b> <span dir="ltr"><<a href="mailto:erik@wikimedia.org">erik@wikimedia.org</a>></span><br>
Date: Wed, Apr 24, 2013 at 11:59 AM<br>Subject: [Wikimedia-l] The case for supporting open source machine translation<br>To: Wikimedia Mailing List <<a href="mailto:wikimedia-l@lists.wikimedia.org">wikimedia-l@lists.wikimedia.org</a>><br>
<br><br>Wikimedia's mission is to make the sum of all knowledge available to<br>
every person on the planet. We do this by enabling communities in all<br>
languages to organize and collect knowledge in our projects, removing<br>
any barriers that we're able to remove.<br>
<br>
In spite of this, there are and will always be large disparities in<br>
the amount of locally created and curated knowledge available per<br>
language, as is evident by simple statistical comparison (and most<br>
beautifully visualized in Erik Zachte's bubble chart [1]).<br>
<br>
Google, Microsoft and others have made great strides in developing<br>
free-as-in-beer translation tools that can be used to translate from<br>
and to many different languages. Increasingly, it is possible to at<br>
least make basic sense of content in many different languages using<br>
these tools. Machine translation can also serve as a starting point<br>
for human translations.<br>
<br>
Although free-as-in-beer for basic usage, integration can be<br>
expensive. Google Translate charges $20 per 1M characters of text for<br>
API usage. [2] These tools get better from users using them, but I've<br>
seen little evidence of sharing of open datasets that would help the<br>
field get better over time.<br>
<br>
Undoubtedly, building the technology and the infrastructure for these<br>
translation services is a very expensive undertaking, and it's<br>
understandable that there are multiple commercial reasons that drive<br>
the major players' ambitions in this space. But if we look at it from<br>
the perspective of "How will billions of people learn in the coming<br>
decades", it seems clear that better translation tools should at least<br>
play some part in reducing knowledge disparities in different<br>
languages, and that ideally, such tools should be "free-as-in-speech"<br>
(since they're fundamentally related to speech itself).<br>
<br>
If we imagine a world where top notch open source MT is available,<br>
that would be a world where increasingly, language barriers to<br>
accessing human knowledge could be reduced. True, translation is no<br>
substitute for original content creation in a language -- but it could<br>
at least powerfully support and enable such content creation, and<br>
thereby help hundreds of millions of people. Beyond Wikimedia, high<br>
quality open source MT would likely be integrated in many contexts<br>
where it would do good for humanity and allow people to cross into<br>
cultural and linguistic spaces they would otherwise not have access<br>
to.<br>
<br>
While Wikimedia is still only a medium-sized organization, it is not<br>
poor. With more than 1M donors supporting our mission and a cash<br>
position of $40M, we do now have a greater ability to make strategic<br>
investments that further our mission, as communicated to our donors.<br>
That's a serious level of trust and not to be taken lightly, either by<br>
irresponsibly spending, or by ignoring our ability to do good.<br>
<br>
Could open source MT be such a strategic investment? I don't know, but<br>
I'd like to at least raise the question. I think the alternative will<br>
be, for the foreseeable future, to accept that this piece of<br>
technology will be proprietary, and to rely on goodwill for any<br>
integration that concerns Wikimedia. Not the worst outcome, but also<br>
not the best one.<br>
<br>
Are there open source MT efforts that are close enough to merit<br>
scrutiny? In order to be able to provide high quality result, you<br>
would need not only a motivated, well-intentioned group of people, but<br>
some of the smartest people in the field working on it.  I doubt we<br>
could more than kickstart an effort, but perhaps financial backing at<br>
significant scale could at least help a non-profit, open source effort<br>
to develop enough critical mass to go somewhere.<br>
<br>
All best,<br>
Erik<br>
<br>
[1] <a href="http://stats.wikimedia.org/wikimedia/animations/growth/AnimationProjectsGrowthWp.html" target="_blank">http://stats.wikimedia.org/wikimedia/animations/growth/AnimationProjectsGrowthWp.html</a><br>
[2] <a href="https://developers.google.com/translate/v2/pricing" target="_blank">https://developers.google.com/translate/v2/pricing</a><br>
--<br>
Erik Möller<br>
VP of Engineering and Product Development, Wikimedia Foundation<br>
<br>
Wikipedia and our other projects reach more than 500 million people every<br>
month. The world population is estimated to be >7 billion. Still a long<br>
way to go. Support us. Join us. Share: <a href="https://wikimediafoundation.org/" target="_blank">https://wikimediafoundation.org/</a><br>
<br>
_______________________________________________<br>
Wikimedia-l mailing list<br>
<a href="mailto:Wikimedia-l@lists.wikimedia.org">Wikimedia-l@lists.wikimedia.org</a><br>
Unsubscribe: <a href="https://lists.wikimedia.org/mailman/listinfo/wikimedia-l" target="_blank">https://lists.wikimedia.org/mailman/listinfo/wikimedia-l</a><br>
</div><br><br clear="all"><div><br></div>-- <br><a href="http://about.me/runa.bhattacharjee" target="_blank">http://about.me/runa.bhattacharjee</a><br><a href="http://fedoraproject.org/wiki/User:Runab" target="_blank">http://fedoraproject.org/wiki/User:Runab</a>
</div>