{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Лабораторная работа №7" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Pandas: Обработка данных" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**1.** Описание исходных данных приведено тут: https://www.kaggle.com/janiobachmann/math-students. Вам предложены измененные данные." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "colab": {}, "colab_type": "code", "id": "mHCbkFpOXAXO" }, "outputs": [], "source": [ "# Открываем таблицу с данными об учениках \n", "import pandas as pd\n", "data = pd.read_csv('math_students.csv', delimiter=',')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Проанализируйте данные - выведите всю возможную информацию, типы данных, распределение по каждому столбцу. " ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "При наличии пустых значений - удалите соответствующие строки. " ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "При наличии нелогичных данных - удалите соответствующие строки. " ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Если в таблице имеются повторяющиеся строки - удалите их." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "После предобработки данных визуализируйте распределение значений всех столбцов. " ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Следующие задания выполните на предобработанных данных." ] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "1n6Q2mr1XAXX" }, "source": [ "* Какая причина выбора школы была самой частой? В качестве ответа приведите соответствующее значение признака." ] }, { "cell_type": "code", "execution_count": 0, "metadata": { "colab": {}, "colab_type": "code", "id": "D_jubmNgXAXY" }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "02xcWVw0XAXb" }, "source": [ "* Найдите количество студентов, у родителей (одного или обоих - рассмотрите оба варианта) которых нет никакого образования." ] }, { "cell_type": "code", "execution_count": 0, "metadata": { "colab": {}, "colab_type": "code", "id": "rQCZTAydXAXc" }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "hPZhCWolXAXg" }, "source": [ "* Найдите минимальный возраст учащегося школы Mousinho da Silveira." ] }, { "cell_type": "code", "execution_count": 0, "metadata": { "colab": {}, "colab_type": "code", "id": "iwbblqO-XAXg" }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "cINy8kq-XAXk" }, "source": [ "* Найдите количество студентов, имеющих нечетное число пропусков." ] }, { "cell_type": "code", "execution_count": 0, "metadata": { "colab": {}, "colab_type": "code", "id": "0SPhqD6GXAXl" }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "cGd3eKvcXAXo" }, "source": [ "* Найдите разность между средними итоговыми оценками студентов, состоящих и не состоящих в романтических отношениях. В качестве ответа приведите число, округленное до двух значащих цифр после запятой." ] }, { "cell_type": "code", "execution_count": 0, "metadata": { "colab": {}, "colab_type": "code", "id": "tIrAEaCpXAXp" }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "colab_type": "text", "id": "m7tyMSA7XAXs" }, "source": [ "* Сколько занятий пропустило большинство студентов с самым частым значением наличия внеклассных активностей?\n", "\n", "*Примечание. В данном контексте под \"большинством\" подразумеваются студенты, имеющее самое частое значение пропусков. То есть в данном задании необходимо:*\n", "\n", "\n", "* *Определить самое частое значение наличия внеклассных активностей (да или нет).*\n", "* *Для группы студентов, соответствующей этому значению, рассмотреть значения признака «число пропусков».*\n", "* *Для каждого значения числа пропусков посчитать, сколько студентов ему соответствует.*\n", "* *Выбрать значение числа пропусков с наибольшим числом студентов.*\n", "\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "colab": {}, "colab_type": "code", "id": "-nb9pAmdX4G9" }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**2.** Возьмите свой набор данных (или выберите, например, на kaggle). Выполните различные возможные операции по предобработке и первичному анализу данных." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "colab": { "collapsed_sections": [], "name": "Неделя1_pandas.ipynb", "provenance": [] }, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.5" } }, "nbformat": 4, "nbformat_minor": 1 }