آپارات، ورزش سه و دیجی‌کالا زبان فارسی را به پرواز درآوردند

 
سهم ۳.۴ درصدی زبان فارسی از محتوای وب در جدیدترین گزارش w3techs نشان داد فعالیت سایت‌های پربازدیدی چون دیجی‌کالا، آپارت و ورزش سه در فضای مجازی و همچنین افزایش ضریب نفوذ تلفن همراه در سال‌های گذشته موجب شده است زبان فارسی بتواند در میان زبان‌های مطرح در فضای مجازی قرار گیرد.
 
 زبان فارسی بعد از انگلیسی، روسی، ترکی و اسپانیولی در جایگاه پنجم در میان زبان‌های پرکاربرد اینترنت قرار گرفت. سهم زبان فارسی در ابتدای سال ۲۰۱۴ یعنی دی ماه ۱۳۹۲ تنها ۰/۸ درصد بود و در جایگاه چهاردهم قرار داشت. در اسفند ۹۶ محمدجواد آذری جهرمی، وزیر ارتباطات و فناوری اطلاعات در توییتی اعلام کرد: «در حالیکه جهانی شدن باعث نزول سهم برخی زبان‌های دنیا از جمله عربی در فضای مجازی شده است، خوشبختانه آمار معتبر جهانی (W3Tech) گزارش از رشد شتابان سهم خط و زبان فارسی در اینترنت طی سال‌های اخیر داشته است. اکنون سهم زبان فارسی به ۱/۸ درصد رسیده است…»
 
 
توییت محمد جواد آذری جهرمی در خصوص سهم زبان فارسی از محتوای وب در اسفند ۹۶
رضا باقری اصل، دبیر شورای اجرایی فناوری اطلاعات نیز اوایل مرداد ماه امسال (۱۴۰۰) در توییتی اعلام کرد که «سهم زبان فارسی از محتوای وب به ۳/۴ درصد رسید و زبان فارسی بعد از انگلیسی، روسی، ترکی، اسپانیولی در جایگاه پنجم قرار گرفت…»
 
 
توییت رضا باقری اصل در خصوص سهم زبان فارسی در وب در مرداد ماه ۱۴۰۰
شرحی از سایت‌های ارائه شده توسط w3techs در فرآیند بررسی سهم زبان فارسی از محتوای وب نشان می‌دهد فیس‌بوک، ویکی‌پدیا، آفیس، توییتر، آپارات، کنوا، وردپرس، واتس‌اپ، دیجی‌کالا و ورزش سه پربازدیدترین سایت‌ها از سوی فارسی زبانان به شمار می‌آیند. قرار گرفتن نام سه سایت با محتوای کاملا فارسی نشان‌دهنده میزان تاثیر این سایت‌ها در توسعه زبان فارسی است.
 
سایت‌های پربازدید فارسی زبانان طبق گزارش وب‌سایت w3techs
وب‌سایت w3techs درخصوص شیوه بررسی خود اعلام کرده است که برای انتشار و جمع‌آوری این گزارش آنها تکنولوژی صفحات وب را در این بررسی مد نظر قرار می‌دهند و فقط به مرور و بررسی یک صفحه به صورت جداگانه نمی‌پردازند. همچنین آنها برای محدود کردن اسپمرهای دامنه حین بررسی، تنها ۱۰ میلیون وب‌سایت برتر را براساس رتبه‌بندی الکسا یا ترانکو در نظر گرفته‌اند و حتی در این میان سایت‌هایی را که محتوای مفیدی ندارند، از این مطالعه حذف کرده‌اند. براساس اعلام این سایت، آنها حتی دامنه‌های فرعی وب‌سایت‌ها را به صورت جداگانه در نظر نگرفته‌اند.
 
حالا زبان انگلیسی با ۶۱.۸%، روسی با ۷.۷% و ترکی و اسپانیولی نیز با ۳.۸% رقیبانی هستند که تا اینجا از زبان فارسی پیشی گرفته‌اند.
 
البته مقایسه تغییرات سهم زبان فارسی با صدرنشین فهرست زبان‌ها یعنی انگلیسی در طول این ۱۰ سال نشان می‌دهد که هر چند زبان انگلیسی بیشترین سهم را از محتوای وب به خود اختصاص داده است اما در طول این مدت، همواره با افت و خیزهایی مواجه بوده و پایین‌ترین نقطه در منحنی تغییرات نشان می‌دهد سال ۲۰۱۸ برای حضور زبان انگلیسی در محتوای وب، بدترین سال بوده است؛ اما زبان فارسی در طول این مدت همواره روندی صعودی داشته است.
 
 
افزایش سهم زبان فارسی از سال ۲۰۱۶
بررسی نمودار شماره ۲ نشان می‌دهد از سال ۲۰۱۶ (سال‌های ۹۴ و ۹۵) سهم زبان فارسی در وب با شیبی تندتر از گذشته افزایش یافته است. توسعه اینترنت پهن‌باند و به خصوص پهن‌باند سیار (۳G و ۴G) نیز تقریبا از همان سال‌ها آغاز شد. نیمه دوم سال ۹۳ دوره انحصار رایتل برای توسعه ۳G به اتمام رسید و همراه اول و ایرانسل اجازه فعالیت یافتند بدون محدودیت فناوری، اینترنت باند پهن را در اختیار مشترکان خود قرار دهند. هر چند ارائه سرویس از همان زمان آغاز شد؛ توسعه جدی پهن‌باند سیار و اثرات آن در سال‌های ۹۴ و ۹۵ دیده شد.
 
افزایش ضریب نفوذ اینترنت همراه از ابتدای سال ۹۶ تا پایان سال ۹۹- منبع: سازمان تنظیم مقررات و ارتباطات رادیویی
نمودار ضریب نفوذ پهن‌باند سیار (۳G و ۴G) نشان می‌دهد ارتباط مستقیمی میان فعالیت‌های صورت گرفته در این بخش و توسعه زبان فارسی وجود دارد و هرقدر میزان دسترسی مردم به اینترنت بیشتر فراهم شده سهم زبان فارسی نیز بیشتر شده است. چرا که این توسعه در نهایت موجب رشد کسب‌وکارهای موثر در این حوزه مانند دیجی‌کالا، آپارت و ورزش۳ شده و پلتفرم‌های ارائه دهنده خدمات نیز فعالیت‌های گسترده خود را با فراگیر شدن اینترنت پهن‌باند آغاز کرده‌اند.
 
در اردیبهشت سال ۹۳ سازمان ملل متحد فعالیت خود در سایت آپارات را با هدف ارائه اطلاعات بیشتر راجع به فعالیت‌هایش در ایران و جهان آغاز کرد و در شهریور همان سال بود که آپارات رکورد تعداد بازدیدهای روزانه بیش از چهار میلیون را ثبت کرد. دیجی‌کالا نیز که فعالیت خود را در سال ۸۶ تنها با ۵ نفر آغاز کرده بود، در همین بازه زمانی به‌جایی رسید که شمار پرسنل خود را به ۳ و سپس ۴ رقم رساند. این سایت فروش کالا در سال ۹۳ حدود ۷۰۰ نفر پرسنل، در سال ۹۴ حدود هزار نفر و در سال ۹۵ حدود دوهزار پرسنل داشت که این خود به تنهایی نشان‌دهنده افزایش میزان فعالیت این کسب‌وکار اینترنتی در بازه زمانی ۳ سال است. همچنین بر اساس آمار ایرنیک، در حال حاضر بیش از یک میلیون و ۴۸۷ هزار دامنه .ir در کشور به ثبت رسیده است.
 
علاوه بر این، شیب تندتر نمودار از سال ۲۰۲۰ تاکنون نشان‌دهنده تاثیر شیوع ویروس کرونا در ایران و به تبع آن افزایش گرایش به پلتفرم‌های مجازی مانند دیجی‌کالا یا سرویس اشتراک ویدیوی آپارات است.
 
 
تاثیر شیوع کرونا به استفاده از پلتفرم‌های فضای مجازی
داده‌های statista.com نشان می‌دهد در سال ۲۰۲۱ حدود ۱.۳۵ میلیارد نفر در سراسر جهان به زبان انگلیسی صحبت می‌کنند یا انگلیسی زبان دوم‌شان است. ۱.۱۲۰ میلیارد نفر نیز به زبان چینی، ۶۰۰ میلیون نفر به زبان هندی، ۵۴۳ میلیون نفر به زبان اسپانیولی، ۲۷۴ میلیون نفر به زبان عربی، ۲۶۸ میلیون نفر به زبان بنگالی و ۲۶۷ میلیون نفر به زبان فرانسوی به عنوان پرجمعیت‌ترین زبان‌ها صحبت می‌کنند؛ اما میزان اختصاص محتوای وب به این زبان‌ها نشان می‌دهد برخی از آنها در فضای مجازی مانند دنیای واقعی پرتعداد نیستند.
 
 
مقایسه زبان‌های پرجمعیت با سهمی که از فضای مجازی به دست آورده‌اند.
بررسی‌ها نشان می‌دهد زبان‌های پرجمعیت دنیا معمولا سهم زیادی از محتوای وب ندارند و مردمشان ترجیح می‌دهند از پلتفرم‌های انگلیسی‌زبان بهره‌برند. همین امر موجب شده تا تولید محتوای چندانی به آن زبان‌ها صورت نگیرد. برای مثال حتی زبان عربی که رسم‌الخطی مشابه زبان فارسی دارد و حدود ۲۲ کشور به این زبان صحبت می‌کنند، حالا فقط ۱/۱ درصد از محتوای وب را به خود اختصاص داده است.
 
نمودار زیر موقعیت بازار تکنولوژی‌های انتخاب شده را از نظر محبوبیت و بازدید نسبت به محبوب‌ترین زبان‌های محتوایی نشان می‌دهد؛ اما با اینکه میزان ترافیک عربی‌زبان‌ها نسبت به فارسی‌زبان‌ها در مراجعه به سایت‌های محبوب بررسی‌شده بیشتر است- چون سایت‌های مورد استفاده آنها اغلب انگلیسی‌زبان هستند- سهم زبان عربی را از محتوای وب در رتبه یازدهم قرار می‌دهد.
 
 
از این رو، شاید از منظر عده‌ای استفاده از پلتفرم‌های فارسی زبان در ایران حسن محسوب نشود اما تاکنون توانسته است پرواز ۲/۸ درصدی زبان فارسی در فضای وب را در مدت ۱۰ سال رقم بزند.
 
این روزها که موضوع محدودیت فضای مجازی داغ شده است انتشار چنین گزارش‌هایی نشان می‌دهد توسعه زبان فارسی در دنیا فقط در شرایطی میسر خواهد بود که امکان تعامل دو طرفه وجود داشته باشد و فیلتر و محدودیت سایت‌های خارجی موجب تنها موجب خواهد شد زبان فارسی ایزوله شده و دسترسی به محتوای فارسی کاهش یابد.

توسعه‌ و بهره‌برداری از سکوی پردازش زبان فارسی عامیانه در سامانه‌ی ذکاوت

 
سکوی پردازش زبان فارسی عامیانه (محاوره‌ای)، به عنوان یکی از دستاوردهای مهم پژوهشی-توسعه‌ای- کاربردی سامانه ذکاوت مورد بهره ‎برداری قرار گرفت.
به گزارش روابط عمومی پژوهشگاه ارتباطات و فناوری اطلاعات، همگام با طراحی و توسعه سامانه ذکاوت(ذائقه‌سنجی کاربران و تحلیل ترافیک)، سکوی پردازش زبان فارسی عامیانه توسعه داده شده و در این سامانه مورد بهره برداری قرار گرفت.
 
گفتنی است از آن‌جایی که متن‌های منتشرشده در پیام‌رسان/ شبکه‌های اجتماعی به صورت عامیانه می‌باشند و پردازش زبان فارسی یکی از ارکان پایه‌ای تحلیل محتوای متنی است، لذا بر اساس دانش موجود در پژوهشگاه ICT، سکوی پردازش زبان فارسی عامیانه (محاوره‌ای) نیز توسط پروژه‌ "طراحی و ایجاد بستر تحلیل ترافیک و ذائقه سنجی کاربران فضای مجازی" توسعه داده شده و در سامانه ذکاوت، طی پروژه توسعه ذکاوت در فاز اول عملیاتی شده است.
 
به گفته لیلا ربیعی مجری پروژه های مذکور و مدیر گروه توسعه سرویس و مدیریت منابع هوش مصنوعی پژوهشگاه ICT، این سکو شامل ابزارهای تشخیص موجودیت‌های نامدار (NER)، نرمال‌ساز فارسی(Normalizer)، برچسب‌زن ادات سخن(POSTagger) و چانکر(chunker) می‌باشد، که به صورت API قابلیت ارائه خدمات را خواهد داشت. لازم به توضیح است که پیکره‌ای شامل ۵۰۰ هزار توکن فارسی از متون عامیانه شبکه‌های اجتماعی جهت توسعه‌ی ابزارهای برچسب‌زن ادات سخن و چانکر، توسط تیم زبان‌شناسی برچسب‌گذاری شده است.
 
لازم به ذکر است پژوهشگاه ارتباطات و فناوری اطلاعات در آزمایشگاه‌های مرکز توسعه و نوآوری هوش مصنوعی جهت ارائه خدمت به دانشجویان و محققان این حوزه اعلام آمادگی می‌نماید.

معاون علمی و فناوری رئیس جمهور: فارسی نهمین زبان در دنیای اینترنت است

 
 
معاون علمی و فناوری رئیس جمهور با بیان اینکه زبان فارسی نهمین زبان در اینترنت محسوب می شود، گفت: هر چه پلتفرم ها را توسعه دهیم، قدرت نفوذ فرهنگی ما در دنیا توسعه می یابد.
 
 سورنا ستاری امروز یکشنبه در مراسم رونمایی از سبد محصولات زندگی تبیان گفت: امروزه ما هزینه‌های بسیار زیادی برای آموزش در کشور صرف می‌کنیم و کمتر کشوری مانند ما این طور بودجه کشور را به امر آموزش اختصاص می‌دهد اما با این وجود مردم آن طور که باید تأثیر آموزش را در زندگی خود نمی‌بینند.
 
وی گفت: حداقل باید تأثیر بودجه‌ای که صرف آموزش می‌شود در GDP کشور دیده شود اما این طور نیست.
 
معاون علمی و فناوری رئیس جمهور با اشاره به اینکه باید در حوزه‌های علوم انسانی به امر آموزش توجه شود، گفت: اکنون از نظر تعداد مقالات در رتبه ۱۵ دنیا هستیم و در حوزه مهندسی از نظر رشد تعداد مقالات در میان ۱۰ کشور اول هستیم اما موضوع آن است که تنها تولید علم مهم نیست و باید از این علوم برای تربیت استفاده کرد.
 
وی با بیان اینکه قدرت علوم انسانی، ایجاد فرهنگ است، گفت: ما روش‌هایی را پیدا کرده ایم که فرهنگ غنی چند هزاره ساله ایرانی را در رفتار روزمره مردم و تجهیزاتی که فرزندانمان استفاده می‌کنند، ببینیم. این روش راهی جز توسعه پلتفرم نیست.
 
ستاری تصریح کرد: پلتفرم‌ها، ایجاد زیرساختی برای استفاده از نوآوری‌ها هستند و با توسعه آنها می‌توان علوم انسانی را با مهندسی تلفیق کرد.
 
وی با بیان اینکه زبان فارسی نهمین زبان در دنیای اینترنت است، گفت: تعداد صفحات فارسی در فضای مجازی چندین برابر عربی است و این در حالی است که از نظر جمعیتی، فارسی زبانان نسبت به عرب زبانان کمتر هستند.
 
معاون علمی و فناوری رئیس جمهور خاطرنشان کرد: هر چه بتوانیم پلتفرم‌ها را توسعه دهیم، قدرت نفوذ فرهنگی ما در دنیا توسعه می‌یابد. این پلتفرم‌ها باید به توسعه محصول از جمله فیلم، انیمیشن، گیم و امثال اینها بینجامد.
 
ستاری گفت: نگاه سازمان تبلیغات اسلامی در این حوزه رو به جلو است و فرهنگی که در این سازمان در خصوص توسعه پلتفرم‌های فضای مجازی ایجاد شده، ارزشمند است.
 
وی افزود: دانشجویان ما به ویژه در حوزه علوم انسانی می‌توانند نوآوری‌های خود را توسعه دهند و سازمان تبلیغات اسلامی می‌تواند زیرساخت جذب آنها باشد. ما نیروی انسانی فوق العاده ای داریم و باید به سمت اتصال آنها حرکت کنیم.
 
ستاری یکی از مشکلات ساختاری کشور را مقابله با نوآوری عنوان کرد و گفت: سیستم دولتی ما هر نوآوری را در نطفه خفه می‌کند و این تبعات اقتصاد نفتی است. این فرهنگ باید اصلاح شود و ما وظیفه داریم برای اشتغال و ایجاد محیط کسب و کار، فرهنگ نوآوری پلتفرمی را توسعه دهیم.

معاون علمی و فناوری رئیس جمهور: فارسی نهمین زبان در دنیای اینترنت است

 
 
معاون علمی و فناوری رئیس جمهور با بیان اینکه زبان فارسی نهمین زبان در اینترنت محسوب می شود، گفت: هر چه پلتفرم ها را توسعه دهیم، قدرت نفوذ فرهنگی ما در دنیا توسعه می یابد.
 
 سورنا ستاری امروز یکشنبه در مراسم رونمایی از سبد محصولات زندگی تبیان گفت: امروزه ما هزینه‌های بسیار زیادی برای آموزش در کشور صرف می‌کنیم و کمتر کشوری مانند ما این طور بودجه کشور را به امر آموزش اختصاص می‌دهد اما با این وجود مردم آن طور که باید تأثیر آموزش را در زندگی خود نمی‌بینند.
 
وی گفت: حداقل باید تأثیر بودجه‌ای که صرف آموزش می‌شود در GDP کشور دیده شود اما این طور نیست.
 
معاون علمی و فناوری رئیس جمهور با اشاره به اینکه باید در حوزه‌های علوم انسانی به امر آموزش توجه شود، گفت: اکنون از نظر تعداد مقالات در رتبه ۱۵ دنیا هستیم و در حوزه مهندسی از نظر رشد تعداد مقالات در میان ۱۰ کشور اول هستیم اما موضوع آن است که تنها تولید علم مهم نیست و باید از این علوم برای تربیت استفاده کرد.
 
وی با بیان اینکه قدرت علوم انسانی، ایجاد فرهنگ است، گفت: ما روش‌هایی را پیدا کرده ایم که فرهنگ غنی چند هزاره ساله ایرانی را در رفتار روزمره مردم و تجهیزاتی که فرزندانمان استفاده می‌کنند، ببینیم. این روش راهی جز توسعه پلتفرم نیست.
 
ستاری تصریح کرد: پلتفرم‌ها، ایجاد زیرساختی برای استفاده از نوآوری‌ها هستند و با توسعه آنها می‌توان علوم انسانی را با مهندسی تلفیق کرد.
 
وی با بیان اینکه زبان فارسی نهمین زبان در دنیای اینترنت است، گفت: تعداد صفحات فارسی در فضای مجازی چندین برابر عربی است و این در حالی است که از نظر جمعیتی، فارسی زبانان نسبت به عرب زبانان کمتر هستند.
 
معاون علمی و فناوری رئیس جمهور خاطرنشان کرد: هر چه بتوانیم پلتفرم‌ها را توسعه دهیم، قدرت نفوذ فرهنگی ما در دنیا توسعه می‌یابد. این پلتفرم‌ها باید به توسعه محصول از جمله فیلم، انیمیشن، گیم و امثال اینها بینجامد.
 
ستاری گفت: نگاه سازمان تبلیغات اسلامی در این حوزه رو به جلو است و فرهنگی که در این سازمان در خصوص توسعه پلتفرم‌های فضای مجازی ایجاد شده، ارزشمند است.
 
وی افزود: دانشجویان ما به ویژه در حوزه علوم انسانی می‌توانند نوآوری‌های خود را توسعه دهند و سازمان تبلیغات اسلامی می‌تواند زیرساخت جذب آنها باشد. ما نیروی انسانی فوق العاده ای داریم و باید به سمت اتصال آنها حرکت کنیم.
 
ستاری یکی از مشکلات ساختاری کشور را مقابله با نوآوری عنوان کرد و گفت: سیستم دولتی ما هر نوآوری را در نطفه خفه می‌کند و این تبعات اقتصاد نفتی است. این فرهنگ باید اصلاح شود و ما وظیفه داریم برای اشتغال و ایجاد محیط کسب و کار، فرهنگ نوآوری پلتفرمی را توسعه دهیم.

۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد

سازمان فناوری اطلاعات ایران از نهایی شدن ۳۰ هزار جمله پیکره گفتمان در فضای مجازی با همکاری مرکز علوم و تحقیقات کامپیوتری علوم اسلامی خبر داد.
 
به گزارش سازمان فناوری اطلاعات ایران، مرکز علوم و تحقیقات کامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیکره گفتمان PENN (Pensilvania)، به تهیه پیکره‌های زبانی پرداخته و به عنوان خروجی نهایی طرح، ۳۰ هزار جمله پیکره گفتمان که علاوه بر برچسب‌های گفتمانی شامل برچسب‌های اجزای کلام، نحوی و معنایی نیز است را ارائه داد.
 
داده‌های بزرگ به فناوری‌های فوق‌العاده‌ای برای پردازش داده‌های عظیم در مجموعه‌های بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش داده‌ها باشد.
 
این داده‌ها نحوه کار سازمان‌ها و افراد را تحت تأثیر قرار می‌دهد. پردازش زبان‌های طبیعی یکی از زیرشاخه‌های با اهمیت در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبان‌شناسی محاسباتی است که به تعامل بین کامپیوتر و زبان‌های طبیعی می‌پردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبان‌های طبیعی به شمار می‌رود.
 
مدل‌سازی توانایی زبانی انسان در مقاصد بسیاری از جمله موارد زیر کاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان‌های زبانی بزرگ یا در اینترنت برای یافتن پاسخ‌های لازم به پرسش‌های متفاوت، پردازش متن و گفتار، دریافت فرمان‌های صوتی توسط ماشین و اجرای دقیق آن‌ها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصه‌سازی متون، تهیه بانک‌های اطلاعاتی، تهیه بانک‌های اصطلاحات علمی و...
 
درک چگونگی عملکرد زبان و مدل‌سازی آن برای رایانه از موارد مهم و حیاتی است. رایانه می‌تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده‌های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند.
 
به عبارتی می‌توان برای بخش‌های مختلف زبان که ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیکره‌ای تعریف کرد که در فضای مجازی و برای اهداف مختلف قابل استفاده باشد. به طور مثال برای نرم‌افزار STT یا «تبدیل گفتار به متن» ابتدا باید یک پیکره آوایی و واجی از آن زبان و بر اساس مدل‌هایی که رایانه قادر به درک آن باشد تهیه کرد.
 
تصور کنید در یک جلسه تخصصی حقوقی برای اینکه گفتار افراد حاضر در جلسه توسط نرم‌افزار STT به متن تبدیل شود، باید داده‌ها یا پیکره‌های آوایی و واژگانی تخصصی رشته حقوق موجود باشد. برای تبدیل متن به گفتار یا TTS نیز نیاز به پیکره‌های متنی آن موضوع است.
 
بنابراین برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به داده‌ها یا پیکره‌های موردنیاز آن زبان است. این پیکره‌ها داده‌های پایه‌ای تحلیل ماشینی خواهند بود. که در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر از جمله گفتمان، قابل تقسیم‌بندی هستند.
 
به طور مثال در مباحث مربوط به ترجمه‌های ماشینی پیکره‌های متنی و معنایی در سطح کلمه و جمله خواهیم داشت. در تحلیل‌هایی که نیاز به پردازش سطحی بالاتر از جمله باشد، با گفتمان و برچسب‌های گفتمانی که برای رایانه قابل فهم باشد، سر و کار خواهیم داشت.
 
تصور کنید شما تمایل داشته باشد تا ابزار الکترونیکی شما (مثلاً رایانه) بدون حضور شما به پست‌های الکترونیکی شما پاسخ بدهد. در این صورت ماشین نیاز دارد تا به درک جملات و پاراگراف‌ها بپردازد. به عبارتی نیاز به داده‌های برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الکترونیکی شما و در نتیجه تهیه پاسخ برای آن (با توجه به اطلاعاتی که از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی که به شما ای میل زده است و بسیاری موارد دیگر…) بپردازد.
 
در همین راستا در بررسی‌ها و داده‌کاوی‌های مربوط به زبان فارسی در هر حوزه مثلاً کسب و کار نیز می‌توانیم از پیکره‌های مربوط به آن استفاده کرد.
 
مزیت داشتن پیکره‌ها در یک زبان علاوه بر موارد ذکر شده این است که با وجود پیکره‌ها پردازش و تحلیل آسان‌تر شده و سرعت آن افزایش می‌یابد.

نخستین پیمایش تخصصی فعالان حونخستین پیمایش تخصصی فعالان حوزه خط و زبان فارسی آغاز شدزه خط و زبان فارسی آغاز شد

​در راستای اجرای طرح ملی رایازبان فارسی در پژوهشگاه ارتباطات و فناوری اطلاعات، برای اولین بار پیمایش تخصصی رایازبان فارسی انجام می شود تا ضمن رصد دقیق بازار، شناخت بهتری از شرایط لازم برای توسعه کسب و کارهای مرتبط با بخش خصوصی و دولتی فراهم شود. ​
به گزارش روابط عمومی وزارت ارتباطات و فناوری اطلاعات، طرح ملی «رایازبان فارسی» با هدف تامین و ارتقای زیرساخت‌‌های تقویت خط و زبان فارسی و توسعه و رونق بازار خدمات بومی در پژوهشگاه ارتباطات و فناوری اطلاعات آغاز به کار کرد.
 
در این طرح برای اولین بار با اجرای پیمایش تخصصی رایازبان فارسی، نسبت به شناسایی فعالان زیست بوم، ارزیابی توانمندی شرکتهای داخلی و تعیین نیازمندیهای بخش خصوصی، در کشور اقدام می شود.
 
در واقع با رصد دقیق بازار، می توان شناخت بهتری از شرایط لازم برای توسعه کسب و کارهای مرتبط با بخش خصوصی و دولتی فراهم کرد.
 
طرح ملی رایازبان فارسی پیرو اهتمام جدی وزارت ارتباطات و فناوری اطلاعات در جهت ارتقا خط و زبان فارسی در فضای مجازی و فراهم‌سازی بسترهای توسعه آن، در پژوهشگاه ارتباطات و فناوری اطلاعات کلید خورده است.
 
در این طرح حمایت از بخش خصوصی، تدوین مدل‌های حمایتی متنوع، تامین زیرساخت‌های هزینه‌بر توسعه خدمات و توجه به توانخواهان به عنوان کاربران ویژه در دستور کار قرار دارد.
 
بر همین اساس اطلاعات اولیه بخشی از ذینفعان و بازیگران مختلف در سایت طراح رایازبان فارسی به آدرس pclp.itrc.ac.ir قرار گرفته است که جهت تکمیل اطلاعات نیاز به مشارکت حداکثری فعالین حوزه خط و زبان فارسی است.
 
بنابراین از کلیه فعالان این حوزه خصوصا شرکت های خصوصی دعوت می‌شود با مراجعه به سایت مذکور، موارد اصلاحی و تکمیلی خود را اعمال کنند و به ما در راستای تدوین برنامه عملیاتی جامع تر و دقیق تر یاری رسانند تا در آینده شاهد توسعه این فناوری و کسب و کارهای مرتبط با آن در کشور باشیم.
 

۱.۹ درصد شدن محتوای وب فارسی

سهم خط و زبان فارسی در فضای وب اکنون به ۱.۹ درصد رسیده و مطابق اهدافی که در نظر گرفته شده، این عدد باید به چهار درصد برسد و سازمان فناوری اطلاعات، زمان‌بندی چهارساله‌ای را برای این کار در نظر گرفته است.
یکی از شاخص‌های مورد نیاز برای توسعه شبکه ملی اطلاعات، همواره تولید محتوای بومی بوده است؛ تا جایی که در بسیاری از موارد ادعا می‌شود زیرساخت‌های فنی شبکه ملی اطلاعات آماده است و اکنون نوبت بخش محتواست که با تکمیل و توسعه، این فرآیند را تکمیل کند.
 
اخیرا تفاهمنامه‌ای توسط وزارت ارتباطات و فناوری اطلاعات و سازمان اسناد و کتابخانه ملی ایران با هدف گسترش زبان و محتوای فارسی در وب منعقد شد. گردآوری و حفاظت بلندمدت از اطلاعات دیجیتال میراث مستند ایرانیان، ایجاد و گردآوری نسخه دیجیتال آثار مکتوب و غیرمکتوب ایرانیان در کتابخانه ملی، ایجاد امکان دسترسی به این آثار برای همه ایرانیان و پژوهشگران سراسر جهان، افزایش سهم زبان فارسی در محیط وب و فضای مجازی و ایجاد بستر مناسب فنی برای حفظ حقوق مالکیت معنوی پدیدآورندگان برخی از موضوعات مطرح در این تفاهمنامه است.
 
محمد جواد آذری جهرمی- وزیر ارتباطات و فناوری اطلاعات - درباره این تفاهم‌نامه گفت: قرار است تمام اسناد کتابخانه ملی که قابل نشر است در یک بازه زمانی به صورت نسخه دیجیتالی با استانداردهای مناسب دربیاید و همه این اطلاعات به صورت اوپن دیتا در اختیار کسب‌وکارها برای توسعه اشتغال قرار می‌گیرد. در حوزه نشر آثار ما نیاز داشتیم گامی به سمت دیجیتال کردن اطلاعات را برداریم و محتوای غنی موجود در کتابخانه ملی که به عنوان حافظه تاریخی ایرانیان است را منتشر کنیم و امیدواریم با این کار به سمت چهار درصدی خط و زبان فارسی در وب برسیم.
 
در راستای افزایش محتوای بومی، رسول سراییان - رئیس سازمان فناوری اطلاعات - به ایسنا گفت: شاخصی در فضای وب در بین‌الملل داریم که صفحات وب را در زبان‌های مختلف و در محیط بیرون اندازه‌گیری می‌کند. یک سایت هم دارد که همه به آن دسترسی دارند. این شاخص صفحات وب را در بازه‌های زمانی مختلف به زبان‌های مختلف می‌شمارد و سپس زبان‌های مختلف را رتبه‌بندی می‌کند.
 
وی همچنین به راه‌های افزایش تولید محتوا اشاره و اظهار کرد: کل فارسی‌زبانان دنیا، علاوه بر ایران، تمامی فارسی‌زبانان اطراف ما که بالغ بر ۲۰۰ میلیون جمعیت هستند به اضافه فارسی زبانان کشورهای دیگر را شامل می‌شوند. تفاهم‌نامه‌ای با مرکز ملی اسناد مطرح شد، کاری که در حوزه تولید محتوا توسط استارت‌آپ‌ها شکل می‌گیرد، توسعه‌ی زیرساخت‌های خط زبان فارسی، همه این موارد به تولید محتوا کمک می‌کند.
 
سراییان در ادامه با اشاره به آخرین گزارش‌های منتشرشده درباره سهم خط و زبان فارسی بیان کرد: طبق آخرین آماری که این شاخص دارد، سهم ما از سال گذشته که حدود ۰.۷ درصد بود به حدود ۱.۹ درصد افزایش پیدا کرده که در حال حاضر بالاتر از سهم زبان چینی، عربی و ترکی است. هدفی که آقای وزیر اعلام کردند دو برابر کردن این شاخص طی سال‌های آتی است و به نظر بتوانیم این دو درصد را ظرف چهار سال آینده به چهار درصد برسانیم.
 

رشد تولید محتوای فارسی در فضای مجازی

معاون وزیر ارتباطات از رشد تولید محتوای فارسی درفضای مجازی خبرداد و گفت: سهم زبان فارسی در محیط وب از ۷ دهم درصد در ۲سال پیش به ۱.۹ درصد رسید و در این شاخص از چین و ترکیه پیش افتادیم.
 
رسول سرائیان با اشاره به عدم توقف طرح ۱۰ برابر کردن محتوای فارسی مطابق با اهداف پروژه های اقتصاد مقاومتی و تداوم آن، اظهار داشت: پروژه های مرتبط با اقتصاد مقاومتی هر سال به روز می شود و امسال نیز مطابق با ابلاغیه معاون اول رئیس جمهور، موضوع افزایش سهم زبان فارسی در فضای مجازی و افزایش محتوای فارسی، در این ابلاغیه دیده می شود؛ با این تفاوت که عنوان ۱۰ برابر کردن برای آن وجود ندارد.
 
وی با بیان اینکه مطابق با این قانون موضوع بزرگ کردن محتوای الکترونیکی به عنوان وظایف همه دستگاههای اجرایی پیش بینی شده است، افزود: تمامی دستگاههای اجرایی موظف به الکترونیکی کردن محتوای قابل ارائه خود شده اند و در این زمینه سازمان فناوری اطلاعات ایران، نقش فراهم کردن زیرساختها و بستر مورد نیاز این سازمانها را دارد.
 
رئیس سازمان فناوری اطلاعات ایران ادامه داد: طبق این قانون رسیدن به ۵۰ درصد ترافیک ارتباطات داخلی از جمله اهداف پیش بینی شده که این مسیر هم اکنون رو به رشد است.
 
معاون وزیر ارتباطات و فناوری اطلاعات اضافه کرد: در زمینه افزایش صفحات وب فارسی اگرچه شاخصی پیش بینی نشده است اما تلاش برای ارتقای وضعیت فعلی در دستور کار قرار دارد.
 
سرائیان گفت: بررسی ها نشان می دهد که میزان صفحات وب فارسی طی دو سال اخیر رشد خوبی داشته و هم اکنون درصد صفحات وب فارسی به یک و ۹ دهم درصد از سهم کل فضای وب رسیده است.
 
وی با بیان اینکه این رقم سال گذشته ۱.۲ درصد و سال پیش از آن ۷ دهم درصد بوده است، خاطرنشان کرد: هم اکنون زبان فارسی با سهم ۱.۹ درصدی در فضای وب از کشورهای چین و ترکیه و حتی کشورهای عربی نیز سبقت گرفته و مسیر رو به رشدی را با سرعت طی می کند. این آمار مطابق با گزارش یک سایت معتبر بین المللی منتشر شده و این سایت به صورت آنلاین، تعداد صفحات وب را به زبان همه کشورها ارزیابی می کند. در این رده بندی، زبان انگلیسی ۵۰ درصد از سهم کل فضای وب را در اختیار دارد.
 
رئیس سازمان فناوری اطلاعات ایران با اشاره به برنامه های ارتقا برای تحقق اهداف قانون اقتصاد مقاومتی تاکید کرد: تمام تلاش این است که شرکتهای تولیدکننده محتوای داخلی مورد حمایت قرار گیرند تا زیرساختهای آنها برای توسعه محتوای داخلی ارتقا یابد.

نرم افزار موبایلی آموزش زبان فارسی رونمایی شد

از نرم افزار موبایلی آموزش زبان فارسی که ازسوی بنیاد سعدی و موسسه اکسین تولید شده است با حضور وزیر ارتباطات و فناوری اطلاعات رونمایی شد.
 
رضامراد صحرایی معاون آموزش و پژوهش بنیاد سعدی گفت: اپلیکیشن آموزش زبان فارسی که با همکاری ضبط 250 قسمت تصویری سه دقیقه ای تنها ظرف 30 هفته  کاری است که جز جهاد نام دیگری بر آن نمی توان نهاد. معتقدم این نرم افزار خواهد توانست به اندازه کل تاریخ آموزش زبان فارسی، فارسی آموزان را جذب کند.
معاون موسسه آموزشی اکسین نیز درباره تولید این نرم افزار گفت: تمامی تجربیات قبلی در اپلیکشن های آموزشی خود را در تولید این نرم افزار به کار بردیم. این مجموعه بر اساس استانداردهایی که در دنیا برای تولید نرم افزار آموزش زبان از طریق موبایل وجود دارد، تولید شده است. تکنولوژی در کنار محتوا دو بال هستند و این نرم افزار به همراه محتوای بسیار غنی که  بنیاد سعدی تالیف کرده است، بسیار کارآمد خواهد بود.
وزیر ارتباطات و فناوری اطلاعات نیز در این مراسم با اعلام افزایش سهم خط و زبان فارسی در بستر وب به ۱.۸ درصد، گفت: تکنولوژی باید به کمک زبان فارسی بیاید.
محمدجواد آذری جهرمی که به مناسبت  آغاز ششمین سال فعالیت و آیین رونمایی از نرم افزار کاربردی آموزش زبان فارسی تولید مشترک موسسه اکسین و بنیاد سعدی در این بنیاد حضور یافته بود گفت: در روند رشد تکنولوژی در دنیا، ارتباطات در نخستین مرحله شهرها را به یکدیگر متصل کرد و در مرحله بعدی با گسترش موبایل ها مردم با یکدیگر ارتباط یافتند که در آینده این روند به اتصال اشیا با یکدیگر پیش می رود. وی ادامه داد: در تحول دوم، یکی از مسائل پیش رو برای اهداف تعیین شده، اتصال و به اشتراک گذاری اطلاعات برای استفاده از منابع و اطلاعات و تبادل تجارب بود که یکی از چالش ها در این زمینه، استفاده از زبان و ترویج یک زبان واحد بود.
وی به تجربه از بین رفتن و کاهش تدریجی پیامک های به اصطلاح فینگیلیش طی چند سال اخیر پرداخت و گفت: در آن دوران به دلیل توسعه یافته نبودن زبان فارسی در سیستم تلفن همراه، فینگیلیش متولد شد و مردم برای مکالمات خود از حروف انگلیسی با گویش خود استفاده می کردند. 
وزیر ارتباطات با بیان اینکه دو اقدام توانست این روند را تغییر دهد، گفت: ایجاد خط فارسی در فضای تکنولوژی موبایل و سیاستگذاری های موثر در زمینه ارزان سازی قیمت پیامک فارسی، باعث شد امروزه بیش از 95 درصد از تبادل پیامک ها به نگارش فارسی باشد. 
وی یادآور شد: بعد از این مقابله ها، روند تکنولوژی به گونه ای پیش رفت که احترام به زبان های محلی مورد ارزش قرار گرفت.
آذری جهرمی با بیان اینکه در سال های آینده، موضوع زبان کنار گذاشته خواهد شد گفت: روند پیشرفت تکنولوژی باعث خواهد شد تا هر فرد به زبان خود با استفاده از نرم افزارهای ترجمه گر با افراد دیگر در جهان ارتباط برقرار کند.
وی ادامه داد: باید در این زنجیره رقابت، با توسعه کاراکترهای فارسی در توسعه تکنولوژی زبان گام برداریم و دستاوردهایمان را در اختیار جهان قرار دهیم. وزیر ارتباطات با بیان اینکه براساس سیاست های کشور و خواسته مردم دلبسته به زبان فارسی که به آن افتخار می کنند، اکنون در حوزه وب در زمینه رشد و احیای زبان فارسی از 9 دهم به 1.8 درصد با وجود یک درصد جمعیت جهان دست یافته ایم. 
آذری جهرمی با بیان اینکه باید بتوانیم این میزان را به سهم چهار درصد از فضای وب سطح جهان برسانیم، گفت: تاکنون فعالان و منابع این حوزه را گرد یکدیگر جمع نکردیم اما به دلیل اهمیت رشد زبان فارسی باید همراه با یکدیگر به توسعه هایی در این حوزه دست یابیم. 

سهم زبان فارسی در اینترنت به ۱.۸ درصد افزایش یافت

سهم خط و زبان فارسی در محتوای اینترنت جهانی که افزایش آن جزو اهداف شبکه ملی اطلاعات عنوان شده، به ۱.۸ درصد رسیده است.
محمدجواد آذری جهرمی در اکانت اجتماعی خود با اشاره به رشد محتوای فارسی در فضای مجازی نوشت: در حالیکه جهانی شدن باعث نزول سهم برخی از زبان‌های دنیا از جمله عربی در فضای مجازی شده است، خوشبختانه آمار معتبر جهانی (W3Tech) که در عکس زیر تصویری از آن آمده، گزارش از رشد شتابان سهم خط و زبان فارسی در اینترنت طی سال‌های اخیر داشته است.
وزیر ارتباطات همچنین گفت: اکنون سهم زبان فارسی در محتوای اینترنت جهانی به 1.8 درصد رسیده و جا دارد از عاملان این رشد قدردانی کنم.