<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Dear Jakob and Darja,<div class=""><br class=""><div class="">Would you like me to send out a few tweets or FB posts asking if people know any? I could then add the sources to your spreadsheet. </div><div class=""><br class=""></div><div class="">Best,</div><div class="">Karolina<br class=""><div class=""><br class=""></div><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On 26 Apr 2017, at 09:51, Lenardič, Jakob <<a href="mailto:Jakob.Lenardic@ff.uni-lj.si" class="">Jakob.Lenardic@ff.uni-lj.si</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">Dear all,<br class=""><br class=""></div><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">Darja and I have been working on an overview of corpora containing data from social media platforms (e.g. Twitter, Facebook, blogs, fora, etc.) available in CLARIN member countries. We are doing this in light of the forthcoming<span class="Apple-converted-space"> </span><a href="https://www.clarin.eu/event/2017/clarin-plus-workshop-creation-and-use-social-media-resources" target="_blank" class="">CLARIN-PLUS workshop on the data of social media that will be held on 18 and 19 May in Kaunas, Lithuania</a>.<span class="Apple-converted-space"> </span><br class=""><br class=""></div><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">We are interested in identifying three types of resources:</div><blockquote style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><div style="margin-top: 0px; margin-bottom: 0px; text-align: justify;" class="">1) corpora of Social Media data that can be used for various kinds of linguistic analyses, such as the<a href="http://metashare.csc.fi/repository/browse/the-suomi-24-corpus-2016h2/eb323320f44d11e6b70e005056be118e30dc4e74e4654a4a8b3e8789ef31c0d0/" target="_blank" class="">Finnish Suomi 24 Corpus</a>, and<br class=""><br class=""></div><div style="margin-top: 0px; margin-bottom: 0px; text-align: justify;" class="">2) smaller, specialized datasets for particular NLP tasks, such as<span class="Apple-converted-space"> </span><a href="https://www.clarin.si/repository/xmlui/handle/11356/1085" target="_blank" class="">CMC training corpus Janes-Tag 1.2</a>.<br class=""><br class=""></div><div style="margin-top: 0px; margin-bottom: 0px; text-align: justify;" class="">3) NLP tools adapted or developed for (noisy) social media language, such as<span class="Apple-converted-space"> </span><a href="https://github.com/clarinsi/csmtiser" target="_blank" class="">csmtiser</a>, which is a tool for text normalisation via character-level machine translation developed by CLARIN.SI members.</div></blockquote><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">In terms of the metadata, we are looking for the following information:</div><ul style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><li class="">Language(s)</li><li class="">Size (in tokens)</li><li class="">Period (from-to)</li><li class="">Annotation & tools</li><li class="">Availability</li><li class="">License</li><li class="">Key publication</li></ul><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">The results of our preliminary investigation can be seen in the<span class="Apple-converted-space"> </span><a href="https://docs.google.com/spreadsheets/d/1sbTvCTjmkXFjVfA2kOUoj1NRDm48R7UiLmabIjHLMRQ/edit?usp=sharing" class="">Google spreadsheet</a>. As you can see, we haven’t been to find relevant corpora/datasets/tools for Bulgaria, Denmark, Lithuania, Latvia, Portugal and Hungary. For several of the corpora/datasets/tools that we have identified some metadata are incomplete. Finally, there might exist corpora/datasets/tools we are not yet aware of but would be grateful to learn about them.<br class=""><br class=""></div><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">For this reason, I would kindly like to invite you to fill in the missing data on behalf of your consortium in the spreadsheet, or send me the missing information by email if that’s easier for you. I am looking forward to your contributions by<span class="Apple-converted-space"> </span><strong class="">8 May.<br class=""><br class=""></strong></div><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">Best,</div><div style="margin-top: 0px; margin-bottom: 0px; font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-align: justify;" class="">Jakob</div><span style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); float: none; display: inline !important;" class="">_______________________________________________</span><br style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><span style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); float: none; display: inline !important;" class="">Userinvolvement mailing list</span><br style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><a href="mailto:Userinvolvement@lists.clarin.eu" style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class="">Userinvolvement@lists.clarin.eu</a><br style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""><a href="https://lists.clarin.eu/cgi-bin/mailman/listinfo/userinvolvement" style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class="">https://lists.clarin.eu/cgi-bin/mailman/listinfo/userinvolvement</a><br style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 16px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);" class=""></div></blockquote></div><br class=""><div class="">
<div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div style="color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px;"><b class=""> <br class="">Karolina Badzmierowska</b><br class="">CLARIN ERIC Communications Officer | Utrecht University | Drift 10, 3512 BS Utrecht, The Netherlands | Room 2.05 | Working days: Mon-Tue</div></div></div>
</div>
<br class=""></div></div></div></body></html>