دیتاست توییتهای فارسی رحیم استرلینگ
رحیم استرلینگ:
استرلینگ در جامائیکا به دنیا آمد، سپس به انگلیس مهاجرت کرد و در آکادمی لیورپول تاریخ زندگی خود را ورق زد. او در سال 2015 به آبیهای منچستر پیوست. در بازی فیفا 2021 مهارتهای او 88 ثبت شده که یک نمره بسیار عالی است. مهاجم شماره 7 منچسترسیتی از تکنیک و سرعت بسیار بالایی برخوردار است او سابقه قهرمانی با منچسترسیتی در لیگ برتر را دارد.
این دیتاست چه کاربردی دارد؟
فایلی که در این صفحه وجود دارد شامل تمام توییتهای فارسی درباره رحیم استرلینگ از زمان تاسیس توییتر تا اسفند 99 است که تعداد لایک، تعداد ریتوییت و تاریخ ثبت توییت در آت ثبت شده است. این فایل در فرمت اکسل و دارای بیش از هفت هزار ریکورد است. در واقع شما با تهیه این فایل کلیه نظرات فارسی درباره استرلینگ را یکجا خواهید داشت. به کمک پردازش زبان طبیعی و روشهای هوش مصنوعی شما میتوانید به تحلیل و اینسایتهای بسیار جذابی برسید. اگر صاحب رسانه ورزشی هستید، کسبوکار مبتی بر اطلاعات دارید یا نیاز به تحلیل نظرات مردم درباره افراد خاص ورزشی دارید، آلومینیوم کنار شماست تا قدم اول هوش مصنوعی را محکم بردارید.
درباره پردازش زبان طبیعی:
NLP از دو تکنیک اصلی برای پردازش استفاده میکند که شامل:
۱) تجزیه و تحلیل نحوی (Syntactic analysis)
نحو همان چیدمان صحیح کلمات در کنار هم است که یک جمله درست از نظر دستور زبان را ایجاد می کند. از این آنالیز در NLP برای درک قوانین گرامری استفاده خواهد شد.
۲) تجزیه و تحلیل معنایی (Semantic analysis)
در این تحلیل هدف درک معنای درست یک متن است. این آنالیز یکی از سختترین کارها در پردازش زبان است. رایانهها به دلیل قدرت داده کاوی قوی که دارند، حجم زیادی از دادههای متنی را در کمترین زمان ممکن تحلیل میکنند. یعنی از بین دادههای بسیار زیاد مهمترین آنها را برگزیده و تحلیل میکنند.
کتابخانه پایتون:
Gensim یکی دیگر از کتابخانههای پایتون است که با هدف «مدلسازی موضوعی، شاخصگذاری اسناد و تشخیص شباهتهای میان متون» طراحی شده است. تمامی الگوریتمهای موجود در این کتابخانه با توجه به اندازه بدنه متن مستقل از حافظه هستند و لذا این کتابخانه میتواند ورودیای بیشتر از RAM را پردازش کند. به دلیل پویایی رابطهای کاربری Gensim ، این کتابخانه میتواند امکان اجرای چندهستهای الگوریتمهای محبوب از جمله تحلیل پنهان مفهومی به صورت آنلاین (LSA/ LSI/ SVD)، تخصیص پنهان دیریکلت، تصویر تصادفی، فرایند دیریکلت تصادفی یا یادگیری عمیق word2vec را فراهم میکند. کتابخانه Gensim شامل اسناد گسترده و برنامههای خودآموز Jupyter Notebook است. این کتابخانه برای انجام محاسبات علمی تا حد زیاد به NumPy و SciPy متکی است. لذا پیش از نصب Gensim باید این دو پکیج پایتون را نصب کنید.
این فایل شامل کلیه توییتهای فارسی درباره رحیم استرلینگ است.
- تعداد رکورد ها 7645 (هفت هزار و ششصد و چهل و پنج) عدد است.
- در تاریخ اسفند 99 جمع آوری شده است.
- فرمت فایل .csv است.
- فایل شامل متن توییت، تاریخ نوشته شدن توییت، تعداد لایک ها، تعداد ری توییت ها، لینک خود توییت و اطلاعات دیگر است.
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.