نحوه تجزیه و تحلیل آماری با زبان برنامه نویسی R
تجزیه و تحلیل آماری با R یکی از بهترین روش هایی است که آماردانان، تحلیلگران داده و دانشمندان داده در هنگام تجزیه و تحلیل داده های آماری انجام می دهند. زبان R یک زبان برنامه نویسی منبع باز محبوب است که به طور گسترده از بسته های داخلی و بسته های خارجی برای تجزیه و تحلیل آماری پشتیبانی می کند.
زبان R به طور بومی از محاسبات آماری پایه برای داده های اکتشافی و آمارهای پیشرفته برای تجزیه و تحلیل داده های پیش بینی شده پشتیبانی می کند. تجزیه و تحلیل آماری با R بخش مهمی از شناسایی الگوهای داده ها بر اساس قوانین آماری و محدودیت های تجاری به دلیل سادگی دستور R و انعطاف پذیری استفاده از بسته های پیشرفته است.
چگونه با زبان R تجزیه و تحلیل آماری انجام دهیم؟
حال اجازه دهید در مورد چگونگی انجام تجزیه و تحلیل آماری با زبان R صحبت کنیم.
برای شروع با تجزیه و تحلیل داده های آماری با R، نیاز کسب و کار برای یافتن الگوهای داده از داده های موجود باید روشن باشد.
- فایل قابل نصب برای R را می توان از https://cran.r-project.org/ دانلود کرد.
- در مرحله بعد، IDE مانند R Studio باید روی سیستم نصب شود.
- R Studio پشتیبانی رابط کاربری گرافیکی را به همراه برخی از ویژگیهای آماده سازمانی مانند Syntax hiliting، اشکال زدایی، بستهها و مدیریت فضای کاری ارائه میکند.
- R Studio را می توان از https://posit.co/ دانلود و نصب کرد.
- به عنوان مثال، ما یک فایل را برای تجزیه و تحلیل آماری به استودیوی R وارد می کنیم.
- ما یک مجموعه داده منبع باز را از https://www.kaggle.com/ برای این نمایش دانلود خواهیم کرد.
- فایل داده ای که استفاده خواهیم کرد «csv» است که مجموعه داده بسکتبال کالج است.
رویکرد عملی تحلیل آماری با R
- این بخش به صورت عملی از استودیوی R برای مجموعه داده بسکتبال کالج استفاده می کند.
- اولین مرحله تنظیم دایرکتوری کاری است که به عنوان مکان ترجیحی برای خواندن و نوشتن مجموعه داده ها استفاده می شود.
- setwd() در R برای تنظیم دایرکتوری کاری استفاده می شود
- getwd() برای بررسی دایرکتوری کاری فعلی
- در ادامه تصویری از R Studio با توابع setwd() و getwd() مشاهده می کنید.
- سپس مجموعه دادهها را با استفاده از دستورcsv() وارد میکند و آن را به یک چارچوب داده به نام SampleData به شکل دستور زیر اختصاص میدهد.
- نمونه داده = read.csv (“cbb.csv”)
- برای بررسی صحیح مجموعه داده وارد شده و بررسی چند خط بالای داده، از دستور head() در R استفاده کنید
- در مرحله بعد، از دستور summary() برای انجام تجزیه و تحلیل آماری پایه استفاده می کنیم که اطلاعات حداقل، حداکثر، میانگین، میانه و محدوده بین ربعی را در مورد مجموعه داده ها برای هر متغیر کمی نشان می دهد.
- خلاصه مجموعه داده های بسکتبال نشان می دهد که متغیر G دارای حداقل مقدار 24.00، حداکثر مقادیر 40.00، یک مقدار میانه 31.00 و یک مقدار میانگین 31.52 است.
summary(sampleData)
- در مرحله بعد، به تحلیل داده های تک متغیره می پردازیم.
- فریم های داده R یک مرجع ذخیره داده کارآمد هستند،
- به عنوان مثال برای مشاهده خلاصه آماری متغیر W از آن استفاده خواهیم کرد
داده ها را می توان به صورت هیستوگرام با استفاده از هیست ترسیم کرد. دستور default() برای مشاهده توزیع کلی داده
زبان برنامه نویسی R
ما می توانیم از تابع Table برای ایجاد یک جدول فرکانس استفاده کنیم که تعداد فراوانی داده ها در متغیر را با استفاده از جدول (sampleData$W) نشان می دهد.
جدول فرکانس نشان می دهد که مقدار 20 دارای حداکثر فرکانس در داده ها است. این تابع هنگام انجام متغیرهای طبقه بندی آماری بسیار مفید است.
همچنین، این جدول فرکانس را با استفاده از تابع نمودار در R با استفاده از > نشان می دهیم
- در مرحله بعد، تحلیل آماری دو متغیره را با R مورد بحث قرار خواهیم داد
- این تحلیل آماری مقایسه بین دو متغیر موجود در آن مجموعه داده است.
- به شناسایی همبستگی و الگوهای بین دو متغیر کمک می کند.
- نماد “~” برای تجزیه و تحلیل دو متغیره در R استفاده می شود
- در این مثال، ما در حال ایجاد یک نمودار پراکندگی یا نمودار پراکندگی برای متغیرهای G و W با استفاده از آن هستیم
plot(sampleData$G~sampleData$W,col=’blue’)
این نمودار پراکندگی نموداری را برای تجزیه و تحلیل دو متغیره نشان می دهد
در ادامه به آزمون t می پردازیم که فرآیند آزمون فرضیه های آماری با استفاده از R است.
- تابع t,test() در R برای پردازش t-test استفاده می شود
- برای آزمون t از داده های متغیر G از داده های نمونه قاب داده استفاده خواهیم کرد
- test(sampleDat$G) نحوی است که در کنسول R Studio اعمال خواهیم کرد.
- آزمون تی استنباط های آماری و فاصله اطمینان را به عنوان نتایج نشان می دهد.
- p-value مقدار احتمالی است که برای فرضیه صفر معنادار است. و مقدار درصد فاصله اطمینان است.
در این آزمون T، P-value <2.2e-16 و فاصله اطمینان 95٪ است. همچنین مقدار میانگین 31.52205 را نشان می دهد.
این آزمون T نشان می دهد که فرضیه جایگزین در فرآیند آزمون فرضیه درست است.
اهمیت تجزیه و تحلیل آماری با زبان R
- R یک زبان برنامه نویسی قابل اعتماد برای تجزیه و تحلیل آماری است.
- دارای طیف گسترده ای از پشتیبانی کتابخانه های آماری مانند آزمون T، رگرسیون خطی، رگرسیون لجستیک و تجزیه و تحلیل داده های سری زمانی است.
- R با ویژگی های تجسم داده های بسیار خوب ارائه می شود که با استفاده از بسته های گرافیکی مانند ggplot2 از potting و نمودارها پشتیبانی می کند.
- این یک زبان برنامه نویسی است که به آماردانان و دانشمندان داده کمک می کند تا کدها را توسعه دهند و مدل های آماری فردی را برای تجزیه و تحلیل کارآمد داده ها آزمایش کنند.
- کد نوشته شده در R برای تجزیه و تحلیل آماری به راحتی قابل تفسیر است و برای سایر دارندگان پشته سازمان و همکاران قابل اشتراک گذاری است.
- زبان R شامل مجموعه دادههای داخلی مختلف برای یادگیری و ایجاد اثبات مفهوم قبل از استفاده از دادههای تجاری واقعی برای تجزیه و تحلیل آماری است.
برای خرید لایسنس نرم افزار Power BI ، میتوانید از خدمات ما استفاده نموده و درخواست خود را از طریق فرم زیر ثبت نمایید.