analise module#
- analise.calcular_medias_regiao_ano(df: DataFrame) DataFrame[código fonte]#
Calcula as médias das notas por ano e região.
Parâmetros#
- dfpd.DataFrame
DataFrame contendo os dados das notas.
Retorna#
- pd.DataFrame
DataFrame com as médias por ano e região.
Raises#
- ValueError
Se o DataFrame não tem todas as colunas necessárias
Exemplo#
>>> data = {'NU_ANO': [2021, 2021, 2022, 2022, 2023], ... 'SG_UF_PROVA': ['SP', 'RJ', 'SP', 'RJ', 'SP'], ... 'media': [7.5, 8.0, 7.8, 8.2, 7.9]} >>> df = pd.DataFrame(data) >>> calcular_medias_regiao_ano(df) Sudeste Média Brasil NU_ANO 2021 7.75 7.75 2022 8.00 8.00 2023 7.90 7.90
- analise.media(df: DataFrame) DataFrame[código fonte]#
Calcula a média de colunas específicas e adiciona-a ao DataFrame.
Parâmetros#
- df: pd.DataFrame
O DataFrame que você deseja modificar.
Retorna#
- pd.DataFrame:
O DataFrame modificado com a nova coluna de médias.
Exemplo#
>>> import pandas as pd >>> data = {'NU_NOTA_CN': [75, 85, 90, 88, 92], ... 'NU_NOTA_CH': [80, 78, 92, 87, 88], ... 'NU_NOTA_LC': [92, 89, 78, 90, 85], ... 'NU_NOTA_MT': [87, 90, 85, 88, 92], ... 'NU_NOTA_REDACAO': [88, 92, 85, 90, 87]} >>> df = pd.DataFrame(data) >>> media(df) NU_NOTA_CN NU_NOTA_CH NU_NOTA_LC NU_NOTA_MT NU_NOTA_REDACAO media 0 75 80 92 87 88 84.4 1 85 78 89 90 92 86.8 2 90 92 78 85 85 86.0 3 88 87 90 88 90 88.6 4 92 88 85 92 87 88.8
- analise.media_internet(df: DataFrame) DataFrame[código fonte]#
Calcula a média de colunas específicas para linhas com «A» e «B» na coluna «Q025» e retorna um DataFrame com a média dessas médias.
Parâmetros#
- dfpd.DataFrame
O DataFrame que você deseja modificar.
Retorna#
- pd.DataFrame
Um DataFrame com a média das colunas «media_A» e «media_B».
Raises#
- ValueError
Se a coluna Q025 não pertence ao DataFrame dado.
Exemplo#
>>> import pandas as pd >>> data = {'Q025': ['A', 'A', 'B', 'A', 'B'], ... 'NU_NOTA_CN': [75, 85, 90, 88, 92], ... 'NU_NOTA_CH': [80, 78, 92, 87, 88], ... 'NU_NOTA_LC': [92, 89, 78, 90, 85], ... 'NU_NOTA_MT': [87, 90, 85, 88, 92], ... 'NU_NOTA_REDACAO': [88, 92, 85, 90, 87]} >>> df = pd.DataFrame(data) >>> media_internet(df) media_sem_internet media_com_internet 0 86.6 87.4
- analise.media_por_area_de_conhecimento(df: DataFrame) DataFrame[código fonte]#
Calcula a média das notas por área de conhecimento e cria um DataFrame.
Parâmetros#
- dfpd.DataFrame
Um DataFrame contendo as notas por área de conhecimento.
Retorna#
- pd.DataFrame
Um DataFrame contendo a média das notas por área de conhecimento, com as seguintes colunas: «CN», «CH», «LC», «MT», «RD» (Ciências da Natureza, Ciências Humanas, Linguagens e Códigos, Matemática, Redação).
Exemplo#
>>> import pandas as pd >>> data = {'NU_NOTA_CN': [650.0, 720.0, 680.0], ... 'NU_NOTA_CH': [700.0, 680.0, 720.0], ... 'NU_NOTA_LC': [710.0, 690.0, 730.0], ... 'NU_NOTA_MT': [720.0, 710.0, 690.0], ... 'NU_NOTA_REDACAO': [800, 750, 820]} >>> df = pd.DataFrame(data) >>> media_por_area_de_conhecimento(df) CN CH LC MT RD 0 683.333333 700.0 710.0 706.666667 790.0
- analise.nota_1000_ano(df: DataFrame, anos: list) DataFrame[código fonte]#
Toma o DataFrame e retorna um DataFrame com os anos e a quantidade de notas 1000
Parâmetros#
df : pd.DataFrame
- anolist
Cada valor da lista deve ser um ano do qual você quer saber a nota 1000
Retorna#
- pd.DataFrame
As linhas do DataFrame são os anos escolhidos e a única coluna a quantidade de notas 1000 neste ano
Raises#
- ValueError
Se as colunas “NU_NOTA_REDACAO” e “NU_ANO” não estiverem presentes no DataFrame.
Exemplo#
>>> import pandas as pd >>> data = {'NU_ANO': [2020, 2020, 2020, 2021, 2021], ... 'NU_NOTA_REDACAO': [1000, 900, 1000, 1000, 950]} >>> df = pd.DataFrame(data) >>> anos_para_verificar = [2020, 2021] >>> nota_1000_ano(df, anos_para_verificar) NU_ANO Quantidade de notas 1000 0 2020 2 1 2021 1
- analise.nota_unificada_por_estado_e_ano(df: DataFrame) DataFrame[código fonte]#
Calcula a média das notas por estado em um DataFrame, também separado por ano.
Parâmetros#
- dfpd.DataFrame
O DataFrame contendo colunas de estados, anos e as médias de cada participante.
Retorna#
- pd.DataFrame
Um novo DataFrame que contém as médias das notas, os estados correspondentes e, opcionalmente, os anos.
Exemplo#
>>> data = {'SG_UF_PROVA': ['MG', 'SP', 'RJ', 'MG', 'SP', 'MG'], ... 'NU_ANO': [2020, 2020, 2021, 2021, 2021, 2021], ... 'media': [80, 85, 90, 78, 88, 92]} >>> df = pd.DataFrame(data) >>> medias_df = nota_unificada_por_estado_e_ano(df) >>> print(medias_df) SG_UF_PROVA NU_ANO Nota_unificada 0 MG 2020 80.0 1 MG 2021 85.0 2 RJ 2021 90.0 3 SP 2020 85.0 4 SP 2021 88.0
- analise.renda_media_per_capita_familiar(df: DataFrame, colunas_extras: list) DataFrame[código fonte]#
Calcula a renda média per capita familiar de cada participante.
Parâmetros#
- dfpd.DataFrame
DataFrame contendo a coluna «Q006» (letras) e a coluna «Q005» (números).
- colunas_extraslist
Lista com o nome das colunas que você quer que permaneçam no novo DataFrame.
Retorna#
- pd.DataFrame
Retorna um novo DataFrame com a coluna de renda per capita e as colunas citadas em colunas_extras.
Raises#
- ValueError
Se o DataFrame não contiver as colunas «Q006» e «Q005».
- KeyError
Se os nomes das colunas não existirem no DataFrame
- TypeError
se o tipo de argumento dado for errado7
Exemplo#
>>> import pandas as pd >>> data = {'Q006': ['A', 'B', 'C', 'D'], ... 'Q005': [1, 2, 3, 4], ... 'Outra_Coluna': ['X', 'Y', 'Z', 'W']} >>> df = pd.DataFrame(data) >>> colunas_extras = ['Outra_Coluna'] >>> renda_media_per_capita_familiar(df, colunas_extras) Renda_Per_Capita Outra_Coluna 0 0.000000 X 1 249.500000 Y 2 415.833333 Z 3 436.625000 W
- analise.renda_unificada_por_estado(df: DataFrame) DataFrame[código fonte]#
Calcula a média unificada das rendas per capita familiar por estado.
Parâmetros#
- dfpd.DataFrame
DataFrame contendo as colunas «SG_UF_PROVA» (código do estado) e «Renda_Per_Capita» (média da renda per capita).
Retorna#
- pd.DataFrame
Retorna um novo DataFrame com a coluna «SG_UF_PROVA» e a média unificada de renda por estado (coluna «Renda_Unificada»).
Raises#
- ValueError
Se o DataFrame não contiver as colunas «SG_UF_PROVA» e «Renda_Per_Capita.»
Exemplo#
>>> df_exemplo = pd.DataFrame({ ... 'SG_UF_PROVA': [1, 2, 1, 2], ... 'Renda_Per_Capita': [500, 600, 700, 800], ... 'Outra_Coluna': [10, 20, 30, 40] ... }) >>> resultado = renda_unificada_por_estado(df_exemplo) >>> print(resultado) SG_UF_PROVA Renda_unificada 0 1 600.0 1 2 700.0
- analise.separar_regiao(df: DataFrame, regiao: str) DataFrame[código fonte]#
Toma o DataFrame e o filtra de acordo com a região escolhida
Parâmetros#
- dfpd.DataFrame
DataFrame original
- regiaostr
Uma das cinco regiões brasileiras
Retorna#
- pd.DataFrame
DataFrame filtrado pela região escolhida
Raises#
- ValueError
Se a entrada fornecida não for uma região válida
Exemplo#
>>> import pandas as pd >>> data = {'SG_UF_PROVA': ['AM', 'SP', 'BA', 'SC', 'GO', 'RS'], ... 'OutrosDados': [1, 2, 3, 4, 5, 6]} >>> df = pd.DataFrame(data) >>> separar_regiao(df, 'sudeste') SG_UF_PROVA OutrosDados 1 SP 2
- analise.separar_ufs_e_anos(df: DataFrame, ufs: list, anos: list) DataFrame[código fonte]#
Toma o DataFrame e o filtra por qualquer quantidade de estados e anos.
Parâmetros#
- dfpd.DataFrame
DataFrame original
- ufslist
Lista com estados que queira separar do DataFrame original. Os estados devem ser escritos pela sigla UF.
- anoslist
Lista com anos que queira separar do DataFrame original.
Retorna#
- pd.DataFrame
DataFrame filtrado pelos estados e anos escolhidos.
Raises#
- ValueError
Se a entrada fornecida não tiver estados ou anos válidos.
Exemplo#
>>> import pandas as pd >>> data = {'SG_UF_PROVA': ['SP', 'RJ', 'MG', 'SP', 'RJ'], ... 'NU_ANO': [2020, 2020, 2021, 2021, 2021], ... 'Nota': [70, 80, 90, 85, 95]} >>> df = pd.DataFrame(data) >>> estados_para_filtrar = ['SP', 'MG'] >>> anos_para_filtrar = [2021] >>> separar_ufs_e_anos(df, estados_para_filtrar, anos_para_filtrar) SG_UF_PROVA NU_ANO Nota 2 MG 2021 90 3 SP 2021 85