niedziela, 31 sierpnia 2008

Porównanie odwiedzin w serwisie internetowym.

Często lubimy porównywać ze sobą rożne serwisy internetowe. Ale tym razem sprawdzimy hipotezę zerową że pomiędzy odwiedzinami w dwóch tygodniach nie ma większej różnicy.
A hipoteza alternatywna poinformuje nam że że istnieje jakaś różnica pomiędzy odwiedzinami w serwisie internetowym (a jeżeli będzie istniała to trzeba będzie dokonywać dalszych badań w celu wskazania i odkrycia jakiejś relacji).

Analityk dostał informacje że w tygodniu 10-16 sierpnia w pewnym serwisie internetowym były codzienne takie odwiedziny: 43, 69, 84, 85, 82, 21, 34. Razem odwiedzin było 418, co daje średnią 59,51 odwiedzin na dzień. Następnie dostał dane z 17-23 sierpnia następującymi danymi 35, 89, 77, 68, 76, 75, 29, razem daje to 449 z średnią 64,14 odwiedzin na dzień.
Analityk ma 2 próby. I chce dokonać porównania wariancji 2 prób, aby stwierdzić czy są istotne różnice w tych odwiedzinach a potem z testu t chce wywnioskować podobieństwa z średnich odwiedzin.
Wariancja z pierwszego tygodnia wynosi 708,57, a wariancja z drugiego tygodnia wynosi 523,48 a w obu przypadkach stopnie swobody wynoszą 6. Do mierzenia rozkładu z różnicy wariancji używa się rozkładu F. Rozkład F to stosunek wariancji z dwóch prób.
W naszym przypadku dla 5% stopnia ufności, przy 6 stopniach swobody statystyka F wynosi 4,284. Stosunek wariancji odwiedziń serwisu wynosi 1,35 co jest mniejszą wartością niż wartośc teoretyczna. Analityk więc wnioskuje że nie ma istotnych róznic w wariancjach odwiedziń. W tej sytuacji pozostaje jemu jeszcze sprawdzić jak bardzo do siebie są dopasowane te próby inaczęj pisząc sprawdzić stopień podobieństwa. Hipoteza zerowa mówi, że średnie odwiedziń swerwisu internetowego nie różnią się czyli są podobne do siebie.
W tym przypadku najpierw trzeba obliczyć stopnie swobody dla testu t: jest nią suma wszystkich danych minus 2 czyli 12 Teoretyczna wartość testu t dla 12 stopni swobody przy 5% poziomie ufności wynosi: 2,1788 W tym przypadku wzór na test t z 2 prób przy braku istotnych róznić w wariancjach wyglada tak jak podano w Wikipedii

|59,51 - 64,14| / Sqrt([(708,57 * 6)+(523,48*6) /7+7-2] * [(7+7)/(7*7)]) = 0.33

Znowu wartość obliczona wartośc t nie przekracza wartości z tablicowej wartości co oznacza że spełniamy hipotezę zerową. Czyli średnie odwiedziń serwisu nie róznią się od siebie przy załozeniu 5% poizomi ufności.

Podsumując statystycznie jesteśmy w stanie obliczyć to że nic się nie zmieniło w sposób istotny w odwiedzinach serwisu internetowego.

czwartek, 28 sierpnia 2008

Microsoft adCenter Analytics beta

Wraz z nową aktualizacją systemu raportującego ruch w serwisie internetowym Microsoft adCenter Analytics beta dostałem linka do założenia nowego konta. Założyłem skrypt zliczający ruch w serwisie internetowym i po 4 godzinach miałem już dane. Oznacza to że dane są zliczane w czasie rzeczywistym. Interfejs mam bardzo przejrzysty. Mogę decydować jakie dane chcę wyświetlić na tablicy nawigacyjnej. Mam tam gadżety: Page views - odsłony, Visits - odwiedziny, Visitors - odwiedzający, użytkownicy. Mam też listę Top pages - 5 najbardziej odwiedzanych stron, Top keywords - 5 slów kluczowych, Top referring websites - 5 odsyłających stron

Raporty są pogrupowane w lewym menu:
Ruch i historia: ciekawy interfejs z czasem z podziałem na rozkłady dzienne, tygodniowe czy miesięczne, i to można przedstawiać na wykresach płaskich czy wymiarowych
W widoku kalendarza można przeglądać w rożnych zakresach kalendarza czy porównywać dane. Widok użytkowników pokazuje ilość użytkowników i jak ilość odsłoń
Bardzo rozbudowaną zawartość ma widok Visitor Loyalty opisujący proporcje nowych i odwiedzających, lojalność, długość wizyt, częstość wizyt.
Ciekawostką jest segmentacja użytkowników po płci, zawodzie, wieku i jak lokalizacji ( na szczęście to w Polsce nie działa). Nowością w sposobie prezentacji jest widok mapy drzewa ruchu użytkowników po stronie. Widok odnośników pokazuje strony z których ludzie trafili z serwisu i jak linki stron z których wyszli z serwisu. Widok celów wymaga skonfigurowania celów dla których mogą być zrealizowane przez odwiedzających na stronie. Raporty mogą pokazywać co miało wpływ na dany cel, ciekawe są raporty pokazujące wpływ kampanii czy słów kluczowych na zrealizowane konwersje. Odrębną rzeczą wymagającą bliższego przestudiowania jest generowanie linków dla kampanii w płatnych wyszukiwarkach (w adCenter, Google i jak Yahoo) , email czy reklamę bannerową w widoku kampanii. Cała sztuka polega na tym, że trzeba sobie samemu wymyślać jakieś długie adresy URL wyróżniające z jakiej kampanii na jaką stronę trafi dany użytkownik. Trochę inaczej zorganizowano zbieranie informacji z transakcji komercyjnych. Pozwala to śledzić co dodał do koszyka użytkownik i jak w efekcie końcowym zliczyć zamówienie. Raport ścieżek to jedna z najbardziej wartościowych cech tego systemu raportującego - może jego prezentacja przekonać ludzi do wykorzystywania tego narzędzia w serwisach internetowych. Konfiguracja tego narzędzia pozwoli na stwierdzenie jak na daną stronę trafiali użytkownicy i jak chodzili po tym serwisie. Innym użytecznym narzędziem są funnele jest generowanie róznych scenariuszy które maja pokazywac jak wielu uztykowników dochodziło do celu, bądź realizowało pewne zadania w serwisie.

Od strony technicznej cała operacja polega na wstawianiu kawałku kodu JavaScript.
http://analytics.live.com/Analytics/msAnalytics.js
a potem każdy skrypt profilu ma wygenerowany taki kod
msAnalytics.ProfileId = 'ABCD1234';
Dodając nowe linijki kodu można monitorować ile plików zostało pobrano bądź zrobiono coś z kliknięciem - wystarczy dodać
msAnalytics.EnableLinkTracking();

działa to globalnie. Można też ręcznie obsługiwać łącza wychodzące
onClick="msAnalytics.TrackLink('http://www.jakasstrona.pl/index.html', LinkType.Outbound, 'Strona dokądś');
albo łącza do plików do pobrania
onClick="msAnalytics.TrackLink('http://www.jakasstrona.pl/download/catalog.pdf', LinkType.Download, 'Prezentacja firmy');
Skrypty do zbierania informacji o zamówieniach wyglądają następująco, w momencie zbierania informacji o tym co dodano do koszyka
msAnalytics.SetCartItem('Produkt', 129.99, 1);
msAnalytics.TrackCart();
a także informację o tym, że zamówienie z koszyka zostało dokonane
msAnalytics.SetCartItem('Produkt 1', 129.99, 1);
msAnalytics.SetCartItem('Towar 2', 79.99, 1);
msAnalytics.SetCartItem('Usluga 3', 3.99, 3);
msAnalytics.TrackPurchase();
Na koniec w tym narzędziu raportującym przewidziano sytuację w której można generować własna strukturę serwisu do badań statystycznych zamiast opierać się na linkach.
msAnalytics.SetView(1, 'cars/sedans/Under25K');
msAnalytics.SetView(2, 'ContosoCars/ContosoModel1/LE');
msAnalytics.TrackPage();
Jak widać Microsoft próbuje dogonić Google w narzędziach raportujących dla analityków internetowych.

poniedziałek, 25 sierpnia 2008

Advanced Web Metrics with Google Analytics

Książka Briana Cliftona Advanced Web Metrics with Google Analytics ma 353 strony i 11 rozdziałów. Została wydana w marcu 2008 roku przez wydawnictwo Sybex. Koncentruje się na najnowszej wersji Google Analytics. Autor prowadzi interesującego bloga

Pierwsza część książki dotyczy sposobu mierzenia sukcesu. Chce pokazać jak ważna jest umiejętność mierzenia w celu osiągnięcia sukcesu. W przypadku serwisu internetowego kluczowe jest zrozumienie jak właściwe wyciągać wnioski z ruchu na stronie internetowej. Główne techniki mierzenia ruchu na stronie opierają się na logach i ciasteczkach. ale z tych samych danych trudno o właściwą analizę. Z tej książki zrozumiałem, że nie można zbierać informacji o użytkownikach w sposób pozwalający ich na identyfikację tożsamości. Można zbierać informacje o ruchu na stronie konkretnego użytkownika i wyciągać wnioski. o jego zachowaniu a następnie wyświetlić jemu odpowiednio przegotowana zawartość strony, natomiast zabronione jest zbieranie i przechowywanie informacji personalnych typu imię i nazwisko czy numer telefonu. Google Analytics to nic innego jak przerobiona wersja aplikacji Urchin do mierzenia i analiz ruchu na stronach internetowych. Google kupiło aplikację Urchin i nadal ją rozwija.

Druga część książki koncentruje się na omówieniu raportów Google. Zwraca uwagę na najważniejszą cechę raportów:segmentację danych. Dzięki tej technice można zestawiać różne powiązania pomiędzy poszczególnymi danymi. Bardzo wygodną cechą jest eksportowanie raportów do plików CSV, TSV (dla Excela) oraz PDF Dokładnie omawia kilka ważniejszych raportów: raporty odwiedzin, raporty e-Commerce, raporty celów, raport wizualizacji celu, raport słów kluczowych, raporty AdWords, raporty mediów, raporty geolokalizacyjne, raporty wyszukiwarki wewnętrznej.

Trzecia część jest dla mnie najciekawsza:opisuje najlepsze praktyki dla programistów które pozwalają zaimplementować kod skryptów na stronach serwisu internetowego. Zanim zacznie się prace nad implementacją skryptów Google Analytics trzeba zwrócić uwagę na stosowanie polityki kopii zapasowych z raportów, tworzenia profili i jak zarządzaniem uprawnieniami użytkowników i administratorów. Odrębną kwestia która jest poruszona to połączenie konta AdWord z kontem Google Analytics.Z poziomu skryptów Google Analytics ga.js developerzy mogą przystosować własny kod skryptów JavaScript do wykonywania zadań. Omówiona została obsługa dynamicznych adresów URL oraz sposoby zmierzenia aktywności na tych stronach. Podobną techniką można posłużyć się, gdy zechcemy mierzyć ilość pobieranych plików czy sposób wypełniania formularzy (w celu zmierzenia problemów na jakie napotykają użytkownicy na stronie). Potężnym narzędziem są skrypty transakcji, które mają na celu zbieranie informacji o zamówieniach czy o procesie zbierania informacji z zamówień. Bardzo silnym narzędziem, ale niedocenianym jest możliwość mierzenia efektywności kampanii reklamowych. Wystarczy wygenerować odpowiedni adres URL, który będzie wskazywał na odpowiednią reklamę: z bannerów, z emaili, z serwisów płacących za kliknięcia, z innych dokumentów takich jak PDF. Tą technikę można też użyć do śledzenia zachowania użytkownika po serwisie - wystarczy odpowiednie generowanie linków po stronie serwera. Do mierzenia AJAX Google Analytics pozwala na użycie eksperymentalnej funkcjonalności - mierzenie zdarzeń. Jeszcze nie miałem okazji tego używać. Głownie to zastosowanie jest w aplikacjach RIA w szczególności Flex/Flash, ale też w śledzeniu dokąd wybrali się użytkownicy z tego serwisu. Dużą wagę trzeba przywiązywać do odpowiedniej konfiguracji konta Google Analytics dla danego serwisu takich jak wykluczenie odpowiednich parametrów w adresie URL, czy umożliwienie mierzenia danych z transakcji. Interesującą możliwością jest mierzenie czego szukają użytkownicy używających wewnętrznej wyszukiwarki (to musi być możliwe dzięki danym w adresie URL, bądź wykorzystaniu wirtualnych adresów URL w celu identyfikacji zapytań do wewnętrznej wyszukiwarki). Podczas planowania celów w serwisie trzeba wskazać ścieżkę krok po kroku wskazując na kolejne adresy stron, dzięki którym użytkownicy mogą osiągnąć cel. są różne cele wizyty użytkownika takie jak ściągnięcie pliku, obejrzenie prezentacji czy dokonanie zamówienia. Ustawienie celów użytkownika w serwisie ma ułatwić dokonywanie pomiarów efektywności. Powiązanie segmentacji z celami pozawala odkrywać wiele różnych ciekawych zależności: pochodzenia, języka, użytych słów kluczowych. Często zachodzi potrzeba wyświetlania odpowiednio przygotowanych raportów pod kątem szczególnych danych. Google Analytics dostarcza filtry, które pozwalają na zbieranie wyselekcjonowanych informacji. Książka zawiera tabele, które opisują jakie dane mogą być filtrowane. Są pokazane ciekawe przykłady w praktyce na przykład: wykluczenie pewnych użytkowników z raportów, wydzielenie danych z pewnej lokalizacji geograficznej, wydzielenie informacji tylko o danej kampanii reklamowej. Najciekawszym rozdziałem jest rozdział o trikach w Google Analytics. Można dodawać nowe wyszukiwarki do listy organicznych wyszukiwarek. W ten sposób można dodać własną wyszukiwarkę na stronie do wyników które mogą pokazywać jakie słowa kluczowe interesowały użytkowników, albo jakieś niszowe wyszukiwarki. Każdemu odwiedzającemu można nadać jakaś etykietkę, która pozwoli na identyfikowanie użytkowników, ile razy wchodzili na dana stronę. Można zbierać informacje z innych kampanii reklamowych (na przykład Microsoftu Ad Center czy Yahoo Marketing Search). Pokazuje też jak zbierać informacje o tym ile razy na danej stronie był kliknięty link. Jest możliwość wykorzystania z adresów URL dla Google Analytics pod kątem danych dla systemu zarządzania treścią serwisu. Oznacza to, że system odpowiednio reaguje na adresy URL dla Google Analytics serwując użytkownikowi odpowiednia treść. Czwarta część książki zawiera informacje przeznaczone dla działu marketingu i kadry zarządzającej, aby wiedzieli czego oczekiwać od analityka i jak interpretować dane z raportów. Cały sens w tym polega na tym jak wyciągnąć z tego właściwe informacje. Analityk powinien wiedzieć jakich informacji potrzebują od niego, ale często jest tak, że sam analityk będzie informował o swoich spostrzeżeniach. Kolejny rozdział pokazuje jak obliczać różne wskaźniki efektywności podczas interpretowania danych z raportów. Do najciekawszych wskaźników jest wskaźnik "indeksu marki". W większości przypadków takie dane mają sens jak maja służyć długoterminowej analizie danych w celu obliczania wskaźników zwrotów z inwestycji. Kilka stron poświęcono interpretacji wyników pod katem optymalizacji treści w reklamie płatnej. Na zakończenie pokazano trik jak mierzyć reklamę z innych mediów. Sztuka polega na tym że dla reklamy zewnętrznej należy przygotować domenę, która potem będzie przekierowywana na właściwy adres URL zawierający informację o kampanii. Ostatni rozdział książki został poświęcony Google Website Optimizer. To narzędzie jest używane do tworzenia testów A/B do testowania layoutów i testów ANOVA do testowania korelacji pomiędzy poszczególnymi elementami na stronie. W internecie coraz większą rolę odgrywają blogi więc autor w aneksie zamieścił listę blogów poświęconych temu tematowi.

Książkę można kupić w Krainie Książek albo na Amazon

piątek, 22 sierpnia 2008

Analitycy internetowi w Polsce

Polski rynek analiz internetowych jest w fazie rozwojowej i widać pewną inercja wobec konkurencji takich zagranicznych firm Urchin/Google Analytics, Omniture SiteAnalytics, NelbenOnline. W Polsce rywalizują o klientów głownie Google Analytics i jak Stat24.

Obecnie zakładanie statystyk jest domeną pozycjonerów z branży SEO/SEM. Natomiast w tej sytuacji, gdy pozycjonerzy koncentrują się uzyskaniu dobrych wyników w wyszukiwarkach na słowach kluczowych, analitycy internetowi mają już zupełnie inne zadania. Ich zadaniem jest przeprowadzenie eksperymentów, które mają na celu przewidzenie ruchu na stronie wskutek działań marketingowych. Jak do tej pory zauważyłem, że większość ofert w polskich firmach to raporty ze statystyk czy różnego rodzaju audytów wskazujących na konieczność dokonania usprawnień. Ale mało kto potrafi wskazać jak zmierzyć efektywność tych działań. Od tego są analitycy internetowi, którzy zbierają dane liczbowe na temat tego w jakim stanie jest serwis (czyli stawiają diagnozę statystyczną) i zbierają dane z eksperymentów (w celu wskazania czy ich prognozy się spełniły).

W Polsce na razie dominuje Gemius ze sporą ilością ofert analitycznych a także oferujące darmowe statystyki Stat24.pl Na razie próbują w tym znaleźć swoją niszę takie firmy jak 7point czy Inteuron. Z trochę inną propozycją wyszła firma 5m.pl prowadzona przez Macieja Zająca, która zaproponowała produkt SiteDoctor polskie narzędzie do przeprowadzania clicktrackingu i testów A/B. Z podobnego podejścia wyszła firma Netina prowadzona przez Mateusza Chłodnickiego i Marcina Kądziołka, proponując proste narzędzie n.Rotator do przeprowadzenia eksperymentów na tekstach reklamowych w internecie.

Jeżeli chodzi o polskich analityków to jednak najbardziej wybija się osoba Mariusza Gąsiewskiego twórcy jedynego jak na razie polskiego bloga poruszającego problemy analityki internetowej. Innym przykładem jest blog Łukasza Szkudlarka, który jest pisany w języku angielskim. W polskim internecie jeszcze słowa "analityk internetowy" czy "analityk internetu" nie są powszechne znane. Często pojawia się nazwisko Krystyny Bębenek pracującej w firmie Gemius S.A. Jest ona współautorką bloga Gemiusa. Sporo polskich analityków internetowych i badaczy internetu można znaleźć na w serwisach społecznościowych takim jak Goldenline czy Linkedin:
Są tam ciekawe profile osób zatrudnionych Gemius S.A takich jak Tomasza Szmidta, Adriana Ostrowskiego, Anny Poręby, Kamili Kowalskiej, Marcina Molendy, Anny Sidlarewicz, Małgorzaty Kaczmarczyk, Krzysztofa Rosińskiego. Jak wiadomo, że wizerunek firmy tworzą ludzie. Na dzień dzisiejszy nawet Tomasz Sienkiewicz założył grupę Web analytics na Goldenline.

Wydaje mi się, że w sytuacji, gdy coraz ważniejsze stanie się dokonywanie analiz pod kątem preferencji słownictwa używanego przez internautów czy tworzenia teoretycznych modeli zachowania użytkowników to rola analityków internetowych będzie systematycznie wzrastała. Obecnie tworzy się serwisy internetowe na zasadzie przedstawienia klientowi prototypu stron w serwisie i gdzie nacisk jest położony na aspekt wizualny. Niewiele serwisów internetowych zostało stworzonych tak żeby można przeprowadzać testy na użytkownikach. Analityka internetowa ma dużą przyszłość.

sobota, 16 sierpnia 2008

Web Analytics Solution Profiler

WASP to Web Analytics Solution Profiler, specjalne rozszerzenie do Firefoxa która jest adresowana do analityków internetowych, których interesuje jakie narzędzia analityczne są zawarte na stronach internetowych. Dzięki temu, że obsługuje 116 różnych narzędzi analitycznych i raportujacych mam rozeznanie jakie informacje są zbierane podczas mojej wędrówki po internecie. W każdej chwili mogę zobaczyć ciasteczka i dane jakie są wysyłane do narzędzi raportujących. Dodatkowo mogę wygenerować mapę serwisu (do 100 stron).
Autor tego rozszerzenia Stephane Hamel jest osobą dość dobrze znaną w środowisku analityków internetowych. Ma interesujacego bloga. ale też jest aktywnym członkiem organizacji Web Analytics Association zrzeszajacą analityków internetowych.

czwartek, 14 sierpnia 2008

Testy hipotez

W dzisiejszych czasach jesteśmy zalewani informacjami statystycznymi. Myślę, że ten kto wie jak konstruowane są te informacje może dojść do intencji jak potraktowano dane. Tym razem do sprawdzania danych statystycznych trzeba wykorzystać hipotezy. A w tym przypadku w celu sprawdzenia wartości danych użytych do wyciągania wniosków stosuje się wnioskowanie statystyczne czyli testy hipotez.
W czerwcu na swoim blogu o Flex 2 miałem 6727 użytkowników, a w lipcu 7245 użytkowników. Zadaję sobie pytania: Czy ta zmiana ilości użytkowników ma moim blogu jest znacząca czy nie?
Jakie jest kryterium znaczącej zmiany ilości użytkowników na blogu? Aby znaleźć odpowiedź na to pytanie trzeba postawić jakiś wniosek do sprawdzenia czyli hipotezę zerową. W naszym przypadku ta hipoteza brzmi: nie ma istotnej zmiany w ilości użytkowników mojego bloga. Trzeba też postawić hipotezę alternatywną czyli, że jest istotna zmiana w ilości użytkowników mojego bloga. Mamy 2 hipotezy i wtedy podejmujemy decyzję którą hipotezę przyjmiemy na wiarę. Przyjmujemy hipotezę zerową. W tej sytuacji zaczynamy robić eksperyment na danych aby stwierdzić czy dane spełniają hipotezę zerową. Gdy okaże się, że z eksperymentu wyjdzie wniosek sprzeczny z hipotezą zerową to prawdopodobnie popełniliśmy błąd drugiego typu.
Natomiast, jak za punkt wyjścia przyjmiemy alternatywną i eksperyment pokaże, że nie ma istotnej zmiany to oznacza że popełniliśmy błąd pierwszego typu.

Jeżeli wnioskujemy, że coś jest prawdziwe, a fakty stwierdzają, że to jest fałszywe to nasze wnioskowanie zawiera błąd drugiego typu. Jeżeli myślimy, że to coś jest fałszywe, kłamliwe a fakty stwierdzają, że to jest prawdziwe to popełniamy błąd pierwszego typu.

poniedziałek, 11 sierpnia 2008

Eksperyment - narzędzia analityczne

Coraz większy wpływ na efekty działań marketingowych w internecie będzie miał eksperyment. W tym momencie przyjrzymy się procedurze w jakim możemy osiągnąć efekt z eksperymentu.
  1. Wybieramy temat i stawiamy hipotezę
  2. Opisujemy sytuację bieżącą i ustalamy cel (weryfikację hipotezy)
  3. Sporządzamy plan działania (planowanie eksperymentu)
  4. Analizujemy przyczyny (zebranie danych i ich eksploracja)
  5. Opracujemy środki zaradcze (na bazie analizy wyciągamy wnioski i wybieramy rozwiązanie)
  6. Sprawdzamy rezultaty (weryfikacja eksperymentu ma pokazać czy nie popełniliśmy błędu)
  7. Ustalamy procedurę postępowania (przeprowadzamy stałą kontrolę nad danymi).
Narzędzia w analizie eksperymentu w serwisie internetowym:
  • Lista kontrolna - przeprowadzenie audytów w serwisie internetowym, główny nacisk położony na audyt funkcjonalny (użyteczności) serwisu internetowego. Testujemy serwis pod kątem tego celu jak użytkownik może szybko osiągnąć to czego oczekuje twórca serwisu. Celem listy kontrolnej jest wyłapanie wszystkich nieprawidłowości i propozycji usprawnień w serwisie
  • Stosowanie wykresów pozwala na wyłapanie tendencji oraz częstości występowania problemów z jakimi zmaga sie serwis internetowy
  • Wykres Pareto ma na celu oszacowanie w jakim zakresie skali mogą występować problemy w serwisie internetowym
  • Rybia ość i techniki mapy myśli pozwalają na uchwycenie zależności pomiędzy przyczyną a skutkiem problemów serwisu internetowego
  • Histogramy i krzywe statystyczne mają na celu sprawdzanie jak dane wpływają na problemy z serwisem internetowym. Pozwalają określić jaki model statystyczny pasuje do tych danych
  • Wykresy kontrolne pozwalają na stwierdzenie czy procesy jakie zachodzą w serwisie internetowym są stabilne.
  • Diagramy rozproszenia - pozwalają na wyszukiwanie pewnych relacji pomiędzy danymi które mają wpływ na serwis internetowy (na przykład ilość użytkowników a ilość zamówień).
Jak wybierać narzędzia do przeprowadzania eksperymentu?
  1. Stawianie hipotezy przynosi dobre efekty jak używa się listy kontrolnej
  2. Do opisania stanu faktycznego potrzebne są dane z narzędzi raportujących, a te dane najlepiej przedstawiać w postaci wykresów
  3. Do zaplanowania eksperymentu dobrze jest użyć map myśli.
  4. Po zebraniu danych z eksperymentu trzeba użyć szeregu narzędzi - głównie trzeba na nowo narysować wykresy, określić krzywe statystyczne, wyznaczyć wykresy kontrolne i zbadać korelację w diagramie rozproszenia.
  5. Do wyciągania wniosków warto użyć mapy myśli i jak na bazie tych danych dokonać oszacowania wyników w przyszłości - w tym przyda sie dopasowywanie danych do modeli statystycznych
  6. Do weryfikacji eksperymentu wystarczy mierzyć wartości zaobserwowanych od wartości oczekiwanych i trzeba dokonywać testu hipotez bądź testu ANOVA
  7. Standaryzacja eksperymentu polega na ustaleniu listy kontrolnej i ciągle stosowanie wobec danych wykresów kontrolnych.
Wezwanie analityka do sklepu internetowego w którym ma tylko do dyspozycji narzędzia raportujące jest tak jak wezwanie lekarza do zmarłego, żeby powiedział na co umarł.



niedziela, 10 sierpnia 2008

Silverlight w Google Analytics

Zaciekawiło mnie to ile osób ma zainstalowane w swoich komputerach Silverlighta. Są 2 posty w internecie które opisują to jak mierzyć to czy ktoś ma zainstalowanego Silverlighta
Nikhil Kothari napisał na swoim blogu wpis o tym jak napisać kod JS który mierzyłby którą wersję Silverlighta mają zainstalowaną użytkownicy, natomiast Jeff Wilcox napisał wpis o tym jak można trackować aplikacje Silverlight (mierząc zdarzenia kliknięcia).

__utmSetVar() w pliku urchin.js trzeba zamienić na pageTracker._setVar() jak korzystamy z ga.js Więcej o tym warto poczytać w tym dokumencie. Z perspektywy czasu taki monitoring użytkowników jest dość kłopotliwy - ale pozwala na spore możliwości o czym pisze lunametrics.
Inna sztuczka (aczkolwiek ma sens w pewnych sytuacjach) pozwala na tworzenie odpowiednich adresów URL

Czy rynek analitycznych dla internetu jest tym w co warto inwestować? W Polsce na pewno.
Szczególnie, że teraz mamy wysyp nowych narzędzi Google w tym zakresie: Google Insights for Search Google Trends for Websites i Google Ad Planner. Ale nie tylko Google inwestuje w takie technologie: Microsoft ma adCenter Analytics, Yahoo zaś będzie miało do zaoferowania IndexTools.

piątek, 8 sierpnia 2008

Co robi Analityk?

Co ma do roboty Analityk w internecie?
  • śledzenie informacji o użytkownikach ma większy sens niż śledzenie pozycji organicznych w wyszukiwarce
  • zadaje niewygodne pytania klientowi i odpowiada za niego
  • bawi sie w detektywa i próbuje znaleźć jakiś skuteczny sposób na zarobienie "dużych pieniędzy" przez klienta
  • zawsze szuka sposobu na mierzenie wyników i to co ma wpływ na te wyniki
  • uwielbia programować i tworzy narzędzia do automatyzacji zbierania danych
  • aby jego praca miała sens to tworzy tajemnicze wykresy
  • może powiedzieć dlaczego sukces jest mierzalny
  • uwielbia statystykę i rachunek prawdopodobieństwa
  • czasami podmieni stronę główną w celu sprawdzenia jakiejś hipotezy
Jego ulubione narzędzia raportujące to Google Analytics, Google Trends, Google Webmaster Tools, Google Website Optimizer. W razie czego zawsze otrzymuje dane.
Rolą analityka jest obserwacja danych i w razie czego wspomóc resztę w osiągnięciu celu.
Drugie zadanie analityka - bardziej odpowiedzialne polega na tym że tworzy hipotezę i eksperyment który ma przynieść jakieś wyniki. Klasycznym pytaniem jest to: jak zamieszczenie formularza kontaktowego na stronie głównej wpłynie na ilość kontaktów z potencjalnymi klientami? albo czy zamieszczenie prezentacji wideo wpłynie na osiągniecie celu? Aby na to odpowiedzieć trzeba zaplanować eksperyment, przeprowadzić eksperyment i zebrać dane oraz napisać prezentację tych danych i interpretację wyników.

Eksplorator danych to taki kto odkrywa osobliwości w oczywistości.

środa, 6 sierpnia 2008

Odchylenie standardowe

Bardzo często zdarza mi się czytać z narzędzi raportujących różne rozkłady danych. Na przykład ilość odsłon, czy ilość użytkowników albo odwiedzin jakiegoś serwisu internetowego.
Jak wiadomo trzeba czasami klientowi powiedzieć że ilość użytkowników jego serwisie jest stabilna czyli nie ma zbyt dużych zmian. Jak klient sie spyta na czym opieram stwierdzenie ze jego serwis ma stabilny proces jeżeli chodzi o ilość użytkowników.
Po prostu mierzę odchylenie standardowe użytkowników na stronie i z tego wynika że wahania wokół średniej ilości użytkowników są takie same w jakimś okresie co oznacza że odchylenie standardowe ma małą wartość.

Na przykład na moim blogu w ostatnim tygodniu miałem tylu użytkowników dziennie:
235, 250, 236,211,217,169,179.
Średnia arytmetyczna wynosi 213,86 odchylenie standardowe z populacji wynosi 28 co oznacza, że to jest bardzo niska wartością odchylenia wobec średniej wynoszącą 14,14%. Można to też tak zinterpretować: na moim blogu nic się nie zmieniło. W internecie serwisy, które mają duże odchylenia standardowe użytkowników oznacza to ze mają spory ruch i jest on zależny od jakiś czynników. Oczywiście, że to pozwala zmierzyć hipotezę tego typu jaki wpływ na użytkowników bloga mają poszczególne słowa kluczowe. W praktyce odchylenie standardowe jest użytecznym narzędziem, które ma prowadzić do wielu różnych analiz.

Odchyleniem standardowym mierzymy to jak bardzo odstajemy od reszty świata

niedziela, 3 sierpnia 2008

Średnia w serwisie internetowym

Dzięki statystyce lepiej się czuję z danymi, które mam z narzędzi raportujących. Zbieramy informacje aby ustalić zjawiska, które rządzą serwisem internetowym. Dane inaczej nazywane zmiennymi maja reprezentować pomiary czyli to co mierzymy. W serwisie internetowym pomiary dotyczą użytkowników, albo odsłon. Statystycy mogą powiedzieć, że ten pomiar jest ciągły. Te dane czyli zmienne podlegają kategoryzacji (segmentacji). Są to cechy danych, które podlegają pomiarowi. W przypadku serwisu może to być podział użytkowników na nowych i jak tych powracających. Statystycy mogą określić to jak atrybuty zmiennych.
Średnia arytmetyczna jest łatwa w obliczeniu, ale w analizie danych z raportów z serwisów internetowych ma sens gdy dane są równomierne i stabilne. Jak wiadomo w serwisach internetowych nic nie ma stabilnego ani równomiernych danych w swoim zakresie. Na przykład w danych z transakcji w Google Analytic wynika, że większość zamówień mieszczą się w zakresie 500 - 1200 zł, ale były też 2 zamówienia za 150 zł, w tym momencie te 2 zamówienia mają zbyt duży wpływ na średnią. W tej sytuacji lepiej pokazać w raporcie medianę.
Obserwując dane z ruchu w serwisie można zauważyć wzrosty lub spadki, w tej sytuacji może zainteresować nas jak ta zmienność wpływa na ruch, tak aby wskazać jaka jest tendencja odsłon (spadkowa czy wzrostowa). W tym momencie lepiej jest użyć średniej geometrycznej. Pozwoli to na zminimalizowanie wpływu jednorazowych czynników takich jak nagły wzrost odsłon spowodowany na przykład zamieszczeniem bannera w portalu.
Otóż większość danych jakich otrzymuje się z narzędzi raportujących zawiera informacje atrybutów, czyli pozwala na obliczenie istności ( czy wag danej cechy) na serwis internetowy. Obecnie taką cechą mogą być słowa kluczowe które miały wpływ na to, że użytkownik dokonał zakupu, czy jakiegoś działania w serwisie (na przykład wypełnił formularz). W tym bardzo przydaje się średnia ważona.
Pozwolę sobie na dygresję: w szkołach w jakich się uczyłem stosowano średnią arytmetyczną do oceniania wyników w nauce. Według mnie to jest pewien niesprawiedliwy sposób oceniania uczniów i studentów. Dlaczego? Bo nie uwzględnia tego, że nauka polskiego czy matematyki jest ważniejsza od nauki religii. Za kryterium istności jest ilość godzin w tygodniu na dany przedmiot. Mogę pokazać przykład, który zmienia całkowicie sens analizy. W pewnej klasie było 5 godzin tygodniowo na lekcje języka polskiego, 4 godziny na matematykę oraz 1 godzina na naukę religii.
Mamy 3 zdolnych uczniów: uczeń A ma 4 z polskiego i z matematyki oraz 6 z religii (jego średnia arytmetyczna to 4,67), uczeń B ma 5 z polskiego oraz 4 z matematyki i z religii (jego średnia arytmetyczna to 4,33) a uczeń C ma 4 z polskiego 5 z matematyki oraz 3 z religii (jego średnia arytmetyczna to 4). Gdyby w szkołach stosowano średnią ważoną to tacy spryciarze jak uczeń A nie otrzymywali świadectwa z biało czerwonym paskiem. Średnia ważona ucznia A to 4,2 dla ucznia B to 4,5 , a uczeń C otrzymuje 4,3 (co za ironia uczeń C jest lepszy od ucznia A). Zresztą uważam, że średnia ważona za "sprawiedliwszą" miarę oceny w szkołach i na uczelni.

To samo możemy zastosować w analizie serwisu internetowego. Otóż najbardziej cenna strona na blogu to taka dzięki, której użytkownik spędza sporo czasu aby to przeczytać. W tej sytuacji robimy średnią ważoną ze średniej ilości czasu w jakim spędzają użytkownicy na tej stronie z ilością odsłoń. W ten sposób może okazać się że będziemy mieli podgląd, które artykuły na blogu są cenne.

sobota, 2 sierpnia 2008

Analiza statystyczna serwisu internetowego

Coraz ważniejsza staje się analiza informacji z danych, które mamy w serwisach internetowych. Te dane mają na celu pokazanie w jakim stanie znajduje się serwis.

Cała sztuka polega na tym, żeby przy pomocy odpowiednich narzędzi szukać odpowiedzi. Oczywiście, że mamy coraz lepsze narzędzia do zbierania informacji o ruchu na stronach, ale bez statystyki nie ruszymy się dalej.

Istotne jest zrozumienie, że co możemy osiągnąć dzięki statystyce pozwoli na lepsze prowadzenie biznesu w internecie. Na wstępnie warto przyjrzeć się temu co ma nam do zaoferowania statystyka.

Najpierw trzeba zebrać dane, a o to już jest łatwiej. Wystarczy zainstalować Google Analytics, czy Stat24. Całe szczęście polega na tym, że pobrane dane można już pobierać w formacie Excela.

Idziemy dalej warto patrzeć na dane poprzez pryzmat wykresów. Ale wykresy to narzędzie. Oczywiście że sporo serwisów analitycznych już pozwala na prezentacje danych w postaci wykresów. W tym momencie warto spojrzeć na wykresy jako narzędzie, które pozwala nam wyciągnąć dane odnośnie tendencji centralnych. Wykresy przydadzą nam się przy testach hipotez. Gdy mamy pojedynczy zbiór danych (na przykład ilość odsłoń) to możemy zrobić test chi kwadrat na trafność dopasowania, przy wielu zbiorach danych można porównywać dane za pomocą testów F i testów Studenta.

Ale dane z serwisów internetowych mają bardzo ważny czynnik - czas. W tej sytuacji potrzebne jest narzędzie do analizy danych w kontekście czasu. Aby sprawdzić stabilność procesu (np: ilość użytkowników w serwisie) warto wykorzystać wykresy kontrolne. Gdy bardziej jest się zainteresowanym wpływem czasu na serwis to trzeba będzie dokonać analizy szeregów czasowych w celu podania prognozy przyszłych zmian.

Najciekawsza w statystyce jest analiza relacji pomiędzy wieloma czynnikami, które wpływają na serwis (na przykład wpływ pól formularza na proces zamówień). W pewnym sensie istotne jest dokonanie eksperymentów. Jak wiadomo serwisy internetowe łatwo poddać różnym eksperymentom. W tym kontekście istotne jest zaprojektowanie eksperymentu pod kątem analizy wariancji (ANOVA). Gdyby przyszło pracować na danych, które nie są wynikiem eksperymentu, ale interesuje nas jak pewne czynniki mają wpływ na te dane to wystarczy nam na początek użyć dopasowania krzywych - regresji albo korelacji.

Tak więc zaczniemy przygodę z eksploracji danych. Mnie jako programisty Adobe Flex cieszy to że są narzędzia do prezentacji danych czyli Flex Data Visualization zawierające zestaw kontrolek do wykresów i jak zaawansowane tabele przestawne