Jak znaleźć odsetek wartości „NAN” w zestawie danych?

Jul 21, 2025

Zostaw wiadomość

Lily Zhao
Lily Zhao
Jestem specjalistą ds. Marketingu w Good Mind Electronics, gdzie opracowuję strategie promujące nasze produkty na całym świecie. Moja rola polega na zrozumieniu potrzeb klientów i tworzeniu przekonujących kampanii marketingowych.

Znalezienie odsetka wartości „NAN” (nie liczby) w zestawie danych jest kluczowym krokiem w przetwarzaniu i analizie danych. Jako dostawca produktów wysokiej jakości związanych z urządzeniami sieciowymi, w tymXpon 1ge 1ge 1ge VoIP cavt wifi44WXpon Ono 1Ge 3fe VoIP WiFi4, IXpon Oni 4ge WiFi5 AC1200, Rozumiem znaczenie dokładnego obsługi danych w różnych dziedzinach. Na tym blogu podzielę się kilkoma praktycznymi metodami obliczania odsetka wartości „nan” w zestawie danych.

Zrozumienie znaczenia wartości „nan”

Przed zanurzeniem się w metodach obliczeniowych ważne jest, aby zrozumieć, dlaczego wartości „nan” mają znaczenie. W analizie danych wartości „NAN” mogą reprezentować brakujące dane, błędy w gromadzeniu danych lub wartości, które nie mają zastosowania. Ignorowanie tych wartości może prowadzić do niedokładnych wyników statystycznych, stronniczych modeli i niewiarygodnych prognoz. Na przykład w zestawie danych sprzedaży wartości „NAN” mogą wskazywać na brakujące dane dotyczące sprzedaży dla niektórych produktów lub okresów. Jeśli te wartości nie zostaną odpowiednio uwzględnione, ogólna analiza sprzedaży może wprowadzić w błąd.

Wymagania wstępne

Aby obliczyć odsetek wartości „NAN”, potrzebujesz zestawu danych i języka programowania z możliwościami manipulacji danymi. Python jest popularnym wyborem ze względu na obszerne biblioteki, takie jak pandy i Numpy. Oto krok - Przewodnik po krokach na temat wykonania tego obliczeń za pomocą Pythona.

Krok 1: Zaimportuj niezbędne biblioteki

Po pierwsze, musisz zaimportować biblioteki pandy i Numpy. Pandy są wykorzystywane do manipulacji danych i analizy, podczas gdy Numpy zapewnia obsługę dużych, wielowymiarowych macierzy i macierzy.

importować pandy jako pd importu Numpy jako NP

Krok 2: Załaduj zestaw danych

Załóżmy, że masz zestaw danych w pliku CSV. Możesz go załadować za pomocąread_csvFunkcja w pandy.

data = pd.read_csv („your_dataset.csv”)

Krok 3: Oblicz całkowitą liczbę wartości w zestawie danych

Aby obliczyć odsetek wartości „NAN”, najpierw musisz znać całkowitą liczbę wartości w zestawie danych. Możesz użyćrozmiarAtrybut DataFrame.

GPU-11GN-V-RGPU-13GN-V

total_values = data.Size

Krok 4: Oblicz liczbę wartości „nan”

Pandy zapewnia wygodny sposób zliczenia liczby „nan” wartości w ramce danych. Możesz użyćOn ()metoda utworzenia maski logicznej, a następnie podsumowania wszystkichPRAWDAwartości.

nan_values = data.isna () sum () sum ().

Krok 5: Oblicz procent wartości „nan”

Teraz, gdy masz całkowitą liczbę wartości i liczbę wartości „nan”, możesz obliczyć procent.

procent_nan = (nan_values / total_values) * 100 print (f „Procent wartości„ nan ”w zestawie danych wynosi {procent_nan}%”)

Obsługa różnych struktur danych

Powyższa metoda działa dobrze w przypadku danych tabelarycznych w Pandy DataFrame. Jeśli jednak pracujesz z tablicą Numpy, proces jest nieco inny.

Importuj Numpy jako NP # Utwórz przykładową tablicę Numpy Array = np.array ([1, np.nan, 3, np.nan, 5]) = (nan_elements / total_elements) * 100 print (f "Procent wartości„ nan ”w tablicy Numpy to {Procent_nan_Array}%")

Wizualizacja wartości „NAN”

Wizualizacja może zapewnić lepsze zrozumienie dystrybucji wartości „NAN” w zestawie danych. Możesz użyć bibliotek takich jak Matplotlib lub Seaborn do tworzenia map cieplnych lub wykresów słupkowych.

Importuj Seaorn jako SNS import matplotlib.pyplot as PLT # Utwórz mapę cieplną „nan” wartości sns.heatmap (data.isna (), cbar = false) plt.title („rozkład wartości nan”) plt.show ()

Radzenie sobie z wysokim odsetkiem wartości „nan”

Jeśli odsetek wartości „NAN” jest wysoki, musisz zdecydować, jak sobie z nimi poradzić. Niektóre typowe strategie obejmują:

  • Usuwanie wierszy lub kolumn: Jeśli wiersz lub kolumna ma dużą liczbę wartości „nan”, możesz rozważyć go usunięcie. Jednak takie podejście może prowadzić do utraty cennych informacji.
  • Przypisanie: Możesz wypełnić wartości „nan” odpowiednimi wartościami, takimi jak średnia, mediana lub tryb wartości nie -„nan” w tej samej kolumnie.
# Zakładaj wartości „nan” ze średnimi data.fillna (data.mean (), inplace = true)

Wniosek

Obliczenie odsetka wartości „NAN” w zestawie danych jest ważnym krokiem w analizie danych. Pomaga zrozumieć jakość danych i zdecydować, jak obsługiwać brakujące wartości. Jako dostawca urządzeń sieciowych, takich jakXpon 1ge 1ge 1ge VoIP cavt wifi44WXpon Ono 1Ge 3fe VoIP WiFi4, IXpon Oni 4ge WiFi5 AC1200, rozumiemy znaczenie dokładnych danych w optymalizacji wydajności sieci i podejmowaniu świadomych decyzji biznesowych.

Jeśli interesujesz się naszymi produktami lub masz pytania dotyczące analizy danych w kontekście zarządzania siecią, skontaktuj się z nami w celu uzyskania zamówień i dalszych dyskusji. Jesteśmy tutaj, aby zapewnić Ci najlepsze rozwiązania dla twoich potrzeb.

Odniesienia

  • McKinney, W. (2017). Python do analizy danych: Dane sprężające się z pandy, Numpy i Ipython. O'Reilly Media.
  • Vanderplas, J. (2016). Python Data Science Handbook: Niezbędne narzędzia do pracy z danymi. O'Reilly Media.
Wyślij zapytanie
Skontaktuj się z namiJeśli masz jakieś pytanie

Możesz skontaktować się z nami przez telefon, e -mail lub formularz online poniżej. Nasz specjalista wkrótce się z Tobą skontaktuje.

Skontaktuj się teraz!