Logo bg.artbmxmagazine.com

Автоматизиране на операциите с minitab за времеви серии

Съдържание:

Anonim

Смятате ли, че трябва да правите определени тестове повече от веднъж? Ако е така, бихте ли искали да дадете почивка на мишката? С MINITAB можете лесно да автоматизирате операциите, за да спестите време. Има няколко начина за това - от метода за бързо и лесно изрязване / поставяне до по-мощния метод, използващ локален макрос.

Как работи това? Почти всички операции в MINITAB могат да се извършват с помощта на командна сесия. В действителност, когато попълните диалогов прозорец и щракнете върху OK, MINITAB генерира сесия за команди, която съдържа цялата информация, която сте избрали в него. Можете да използвате тези командни сесии "както е." или ги модифицирайте, ако желаете, заредете ги в една стъпка и MINITAB ще извърши целия анализ.

Да предположим, че имате седмично събиране на данни и генерирате три различни графики от тези данни. Разбира се, всяка седмица трябва да попълвате диалоговите прозорци и за трите класации, което би означавало много кликвания на мишката. Вместо това можете да заредите скрипта, генерирал тези диаграми, с една бърза стъпка.

Тази статия включва някои прости примери за това как да автоматизирате операциите с времеви серии в MINITAB.

Времеви серии Minitab.

Това ръководство съдържа концепцията, приложението и изпълнението в системата версия на Minitab 15 на темата на Time Series

ОСНОВНИ КОНЦЕПЦИИ НА СРЕЩА ВРЕМЕ

1.1 ВЪВЕДЕНИЕ

Всяка институция, било то семейството, компанията или правителството, трябва да прави планове за бъдещето, ако иска да оцелее и да напредне. Днес различните институции изискват да знаят бъдещото поведение на определени явления, за да планират, прогнозират или предотвратяват.

Рационалното планиране изисква предвиждане на бъдещи събития, които е възможно да се случат. Прогнозата от своя страна често се основава на случилото се в миналото. По този начин има нов тип статистически изводи, които се правят за бъдещето на някаква променлива или съставна част от променливи въз основа на минали събития. Най-важната техника за правене на изводи за бъдещето въз основа на случилото се в миналото е анализ на времевите серии.

Има безброй приложения, които могат да бъдат цитирани в различни области на знанието, като например в икономиката, физиката, геофизиката, химията, електричеството, демографията, маркетинга, телекомуникациите, транспорта и др.

Времеви серии

Примери

1. Икономически серии: - Цени на статия - Нива на безработица - Степен на инфлация

- Индекс на цените и т.н.

2. Физическа серия: - Метеорология- Количество отпаднала вода - Максимална дневна температура

- скорост на вятъра (енергия на вятъра)

- Слънчева енергия и т.н.

3. Геофизика: - Сеизмологична поредица
4. Демографски серии: - Растеж на населението - Раждаемост, смъртност - Резултати от преброяването на населението
5. Маркетинг серия: - Търсете серии, разходи, оферти
6. Телекомуникационни серии: - Анализ на сигнала
7. Транспортна серия: - Серия за трафик

Един от проблемите, които времевите серии се опитват да решат, е проблемът с прогнозирането. Това ни дава серия {x (t1),…, x (tn)} нашите интересни цели са да опишем поведението на поредицата, да проучим механизма на генериране на времевия ред, да потърсим възможни времеви модели, които ни позволяват да преодолеем несигурността на бъдещето, Отсега нататък ще изучаваме как да изградим модел, който да обясни структурата и да прогнозираме развитието на променлива, която наблюдаваме във времето. Променливите на интерес могат да бъдат макроикономически (индекс на потребителските цени, търсене на електроенергия, серия износ или внос и др.), Макроикономически (продажби на фирма, склад в склад, разходи за реклама в сектор), физически (скорост на вятъра във вятърна електроцентрала, температура в процес, поток на река, концентрация в атмосферата на замърсител) или социална (брой раждания, бракове, смърт или гласове на политическа партия).

1.2 ОПРЕДЕЛЯНЕ НА СРЕЩИТЕ ВРЕМЕ

В много области на знанието наблюденията за интерес се получават в последователни моменти от време, например всеки час, в продължение на 24 часа, месечно, тримесечно, полугодишно или се записват от някой екип непрекъснато.

Наричаме времевата серия набор от измервания на определено явление или експеримент, записани последователно във времето. Тези наблюдения ще бъдат обозначени с {x (t1), x (t2),…, x (tn)} = {x (t): t Î T Í R} с x (ti) стойността на променливата x в момента Вие. Ако T = Z се казва, че времевият ред е дискретен и ако T = R се казва, че времевият ред е непрекъснат. Когато ti + 1 - ti = k за всички i = 1,…, n-1, се казва, че сериите се присвояват, в противен случай ще бъдат не-приравнени.

Отсега нататък ще работим с дискретни времеви редове, еднакво разположени, в който случай ще приемем и без загуба на обща че: {x (t1), x (t2),…, x (tn)} = {x (1), x (2),…, x (n)}.

1.3 ПЪРВА СТЪПКА, КОГАТО АНАЛИЗИРАНЕ ВСИЧКИ СЕРИИ ЗА ВРЕМЕ

Първата стъпка в анализа на времевите редове е да се очертае поредицата. Това ни позволява да открием основните компоненти на поредицата.

Серийната графика ще позволи:

a) Detect Outlier: отнася се до точки от серията, които са извън нормалното. Отшелник е наблюдение на серията, което съответства на ненормално поведение на явлението (без бъдещи инциденти) или на грешка в измерването.

Трябва да се определи отвън дали дадена точка е по-външна или не. Ако бъде установено, че той трябва да бъде пропуснат или заменен с друга стойност, преди да анализира поредицата.

Например, при проучване на ежедневното производство във фабрика, се е появила следната ситуация, вижте фигура 1.1:

Двете точки, поставени в кръг, изглежда отговарят на ненормално поведение на поредицата. При разследването на тези две точки е установено, че те съответстват на два дни безработица, което естествено се е отразило върху производството в тези дни. Проблемът беше решен чрез премахване на наблюденията и интерполиране.

б) Тя позволява откриване на тенденция: тенденцията представлява преобладаващото поведение на серията. Това може да се дефинира слабо като изменението на средната стойност за период (виж фигура 1.2).

в) Сезонно изменение: сезонното изменение представлява периодично движение на времевия ред. Дължината на единицата за периода обикновено е по-малка от една година. Тя може да бъде четвърт, месец или ден и т.н. (виж фигура 1.3).

Математически можем да кажем, че серията представлява сезонна промяна, ако има число s такова, че x (t) = x (t + k × s).

Основните сили, които причиняват сезонни промени са метеорологичните условия, като например:

  1. през зимата продажби на сладолед в лятна вълна продажба на износ на плодове през март.

Всички тези явления показват сезонно поведение (годишно, седмично и т.н.)

г) Нерегулярни изменения (Случайни компоненти): Нерегулярните (произволни) движения представляват всички видове движения във времеви серии, различни от тенденцията, сезонните промени и цикличните колебания.

2. МОДЕЛИ ЗА СЕРИЯ НА КЛАСИЧЕСКОТО ВРЕМЕ

2.1 МОДЕЛИ ЗА ДЕКОМПОЗИЦИЯ

Класическият модел за времеви серии предполага, че серия x (1),…, x (n) може да бъде изразена като сума или произведение от три компонента: тенденция, сезонност и термин на случайна грешка.

Има три модела от времеви серии, които са общоприети като добри приближения на истинските взаимоотношения между компонентите на наблюдаваните данни. Това са:

  1. Добавка: X (t) = T (t) + E (t) + A (t) Мултипликативна: X (t) = T (t) • E (t) • A (t) Смесена: X (t) = T (t) • E (t) + A (t)

Където:

  • X (t) серия, наблюдавана по време tT (t) компонент на тренда E (t) сезонен компонент A (t) случаен (случаен) компонент

Обичайно предположение е, че A (t) е случаен компонент или бял шум с нулева средна и постоянна дисперсия.

Моделът на добавките (1) е подходящ, например, когато E (t) не зависи от други компоненти, като T (t), ако напротив сезонността варира в зависимост от тенденцията, най-подходящият модел е мултипликативният модел (две). Ясно е, че модел 2 може да се трансформира в добавка, като се вземат логаритми. Проблемът, който възниква, е правилното моделиране на компонентите от серията.

Фигура 2.1 илюстрира възможните модели, които могат да бъдат последвани от серии, представени от модели (1), (2) и (3).

2.2 ОЦЕНКА НА ТЕНДЕНЦИЯТА

Тук ще приемем, че сезонният компонент E (t) не е налице и че адитивният модел е адекватен, тоест:

X (t) = T (t) + A (t), където A (t) е бял шум.

Има няколко метода за оценка на T (t). Най-широко използваните се състоят от:

  1. Поставете функция на време, като полином, експоненциал или друга гладка функция на t. Омекотете (или филтрирайте) стойностите в серията. Използвайте разлики.

2.2.1 НАСТРОЙКА НА ФУНКЦИЯ

Следващите графики илюстрират някои от формите на тези криви.

Забележка:

  1. кривата на тренда трябва да обхваща сравнително дълъг период, за да бъде добро представяне на дългосрочната тенденция. Праволинейната и експоненциалната тенденция са приложими в краткосрочен план, тъй като дългосрочната крива S може да изглежда права линия в ограничен период от време (например).

На фигура 2.2 и двете криви (права и Gompertz) се вписват добре, но проекциите се различават значително в дългосрочен план.

Пример 1: Таблица 2.1 показва тримесечните данни за жилищните единици, започнати в Съединените щати от третото тримесечие на 1964 г. до второто тримесечие на 1972 г. (Необходимо е да се отбележи, че при анализа на тенденциите разглежданият период трябва да бъде по-дълъг. Въпреки това, тъй като основната цел е да се илюстрира методът на разлагане и техниките за извеждане на така разградените елементи, недостатъчността от данните не трябва да представлява интерес.)

Таблица 2.1: Новите жилищни единици започват в Съединените щати от третото тримесечие на 1964 г. до второто тримесечие на 1972 г. (в хиляди единици).

година аз II III IV Общо годишно
1964 398 352
1965 283 454 392 3. 4. 5 1474
1966 274 392 290 210 1166
1967 218 382 382 340 1322
1968 298 452 423 372 1545
1969 336 468 387 309 1500
1970 264 399 408 396 1467
1971 389 604 579 513 2085
1972 510 661

Нека t е всяко от 32-те тримесечия от 1964 до 1972 г., тоест t = 1 за третото тримесечие на 1964 г., t = 2 за четвъртото тримесечие и т.н. Така че дефиниционната област на t е набора от цели числа от 1 до 32 включително. Нека корпусът T (t) започва тримесечно. Стойностите на t и T (t) са дадени в таблица 2.2. За да се изчислят стойностите на a и b по линията на тренда

T (t) = a + bt

Следните цифри са получени от данните в таблица 2.1.

Таблица 2.2: Изчисляване на тенденцията в жилищното строителство започва в САЩ от третото тримесечие на 1964 г. до второто тримесечие на 1972 г.

Четвърта година

T

T (t)

Тенденция
1964: 3

един

398

291,73

4

две

352

298,07

1965: 1

3

283

304,41

две

4

454

310,75

3

5

392

317,09

4

6

3. 4. 5

323,43

1966: 1

7

274

329,77

две

8

392

336,11

3

9

290

342,45

4

10

210

348,79

1967: 1

единадесет

218

355,13

две

12

382

361,47

3

13

382

367,81

4

14

340

374,15

1968: 1

петнадесет

298

380,49

две

16

452

386,83

3

17

423

393,17

4

18

372

399,51

1969: 1

19

336

405,85

две

двадесет

468

412,19

3

двадесет и едно

387

418,53

4

22

309

424,87

1970: 1

2. 3

264

431,21

две

24

399

437,55

3

25

408

443,89

4

26

396

450,23

1971: 1

27

389

456,57

две

28

604

462,91

3

29

579

469,25

4

30

513

475,59

1972: 1

31

510

481,93

две

32

661

488,27

Така че линията на тренда е

T (t) = 285.39 + 6.34 × t

Фигура 2.3 показва графично линията на тренда, коригирана за тримесечните данни в таблица 2.2. Пунктираната линия след 1972 г. представлява проекции (вж. Раздел 3 Прогнози).

Развитие в Minitab:

  1. Отворете Minitab. Копирайте данните в работния лист Minitab Изберете: Stat à Time Series - Trend Analysis.

  1. В прозореца „Анализ на тенденциите“ избираме с едно кликване променливата, оставяме Типът на модела като линеен и кликваме ОК

  1. Minitab показва следната графика, която, както виждаме, е подобна на тази, представена в упражнението.

  1. Ако искаме да получим 4 графики в един прозорец, изберете опцията Графики…

Щракнете върху Четири в едно.

Щракнете върху OK

Minitab показва следната графика.

2.2.2 СОФТИНГ. ЛИНЕЙНИ ФИЛТРИ

Един от начините за визуализиране на тенденцията е чрез изглаждане на поредицата. Основната идея е да се определи от наблюдаваната серия нова серия, която изглажда нетрендните ефекти (сезонност, случайни ефекти), така че да можем да определим посоката на тенденцията (виж фигура 2.4).

Това, което правим, е да използваме линеен израз, който трансформира серия X (t) в изгладена серия Z (t): Z (t) = F (X (t)), t = 1,…, n

такъв, че F (X (t)) = T (t). Функция F се нарича линеен филтър. Най-използваният линеен филтър е подвижната средна.

2.2.2.1 ДВИГАТЕЛСКИ СРЕДСТВА

Целта е да се премахнат сезонните и случайни компоненти от серията. За месечни серии с годишна сезонност (s = 12) се изглажда серията,

За тримесечна серия, с годишна сезонност (s = 4), изгладената серия се дава от

Тази процедура се нарича: ограничен симетричен филтър.

Забележка: омекотява, когато има много резки промени, неправилни движения.

Пример 2: От данните в пример 1 се изчислява подвижна средна стойност, като се добавят стойностите за определен брой последователни периоди и след това се разделя получената сума на броя на обхванатите периоди. В този случай това е тримесечна серия и за това се използва формула (2).

Таблица 2.3: Изчисляване на средната стойност на четири тримесечни срещи в САЩ, трето тримесечие на 1964 г. до второ тримесечие на 1972 г. (в хиляди единици)

Година по тримесечие

Оригинални данни И

Mobile общо за четири тримесечия

Четири четвърти подвижна средна

Четири четвърти в центъра подвижна средна

(Един)

(Два)

(3)

(4)

(5)

1964: 3

398

4

352

1965: 1

283

1487

372

371

две

454

1481

370

369

3

392

1474

369

367

4

3. 4. 5

1465

366

359

1966: 1

274

1403

351

338

две

392

1301

325

308

3

290

1166

292

285

4

210

1110

278

276

1967: 1

218

1100

275

287

две

382

1192

298

314

3

382

1322

331

341

4

340

1402

351

359

1968: 1

298

1472

368

373

две

452

1513

378

382

3

423

1545

386

391

4

372

1583

396

398

1969: 1

336

1599

400

395

две

468

1563

391

383

3

387

1500

375

366

4

309

1428

357

348

1970: 1

264

1359

340

342

две

399

1380

3. 4. 5

356

3

408

1467

367

382

4

396

1592

398

424

1971: 1

389

1797

449

471

две

604

1968

492

507

3

579

2085

521

536

4

513

2206

552

559

1972: 1

510

2263

566

две

661

В Таблица 2.3, например, четиримесечната подвижна средна стойност за първото тримесечие на 1965 г. се получава чрез добавяне на стойностите на третото и четвъртото тримесечие на 1964 г. и първото и второто тримесечие на 1965 г. и след това разделянето на сумата на 4. Средната за второто тримесечие на 1965 г. той се получава чрез прибавяне на стойностите на четвъртото тримесечие на 1964 г. с тези от първото, второто и третото тримесечие на 1965 г. и след това разделянето на сумата на 4. Следователно за всяка следваща средна четвърт, която идва първа, се изважда и се добавя последното.

Колона 4 от таблица 2.3 показва движещите се средни стойности за четири получени тримесечия въз основа на данните за стартирането на жилищата за 1964 до 1972 г. Подвижната средна стойност не елиминира силно изразените колебания в серията, но съществено намалява амплитудата на измененията. от оригиналните данни.

Ако нечетен брой периоди влезе в изчисляването на подвижна средна стойност, процесът ще бъде по-лесен, тъй като броят на периодите преди и след периода, за който се изчислява средната стойност, са еднакви. Ако броят на периодите е четен, както в този пример, не можете да използвате същия брой периоди преди и след определен период. Следователно, подвижната средна стойност трябва да е на половината между стойностите на два последователни периода и не е свързана с нито един период. Този проблем може да бъде решен чрез изчисляване на серийна центрирана подвижна средна стойност, която се осъществява чрез първо получаване на подвижна средна с две четвърти от вече получените подвижни средни стойности. Първата центрирана средна подвижна средна стойност е средната стойност на първите две четиримесечни подвижни средни стойности,втората центрирана подвижна средна е средната стойност на подвижните средни стойности от четири втори и трети четвърти и т.н. По този начин ще има равен брой периоди след и преди посочения период, за който се изчислява центрираната подвижна средна стойност. Центрираните движещи се средни стойности се виждат в колона 5 на таблица 2.3.

Съгласно формула 2 изчислението ще бъде следното:

Тази стойност съответства на центрираната средна подвижна стойност, показана в колона 5.

Фигура 2.5 показва графично коригирането през подвижната средна стойност, съгласно таблица 2.3, където черният сегмент представлява оригиналната серия, а синият сегмент - изгладената серия.

Развитие в Minitab:

  1. Отворете Minitab. Копирайте данните в работния лист Minitab:

  1. Изберете: Stat à Временна серия à Moving Average…

  1. Изберете с щракване променливата с времевата серия и поставете дължината на MA.

В този случай тя е равна на 4 (4 тримесечия годишно). Щракнете върху OK

  1. Minitab показва графиката с подвижната средна стойност.

резюме

Времевата серия се нарича набор от измервания на определен феномен или експеримент, записани последователно във времето, например всеки час, месечно, тримесечно, полугодишно и т.н. В тази бележка работихме с дискретни времеви серии, еднакво разположени в в този случай се приема, че:: {x (t1), x (t2),…, x (tn)} = {x (1), x (2),…, x (n)}. Поради въвеждащия характер, той беше ограничен до случая с едномерни времеви редове.

Когато анализирате времеви серии, първото нещо, което трябва да направите, е да направите графиката на поредицата. Това ни позволява да открием основните компоненти на поредицата. Серийната графика ще позволи: откриване на Outlier, откриване на тенденции, сезонни промени, нередовни изменения (или произволен компонент).

Класическият модел за времеви серии може да се изрази като сбор или продукт от три компонента: тенденция, сезонност и термин с произволна грешка. Има три модела от времеви серии. Това са:

  1. Добавка: X (t) = T (t) + E (t) + A (t) Мултипликативна: X (t) = T (t) • E (t) • A (t) Смесена: X (t) = T (t) • E (t) + A (t)

За да се получи модел, е необходимо да се оцени тенденцията и сезонността. За да се оцени тенденцията, се предполага, че сезонният компонент не присъства. Оценката се постига чрез приспособяване на полином или изглаждане на серията към функция на времето чрез подвижните средни стойности. За да се оцени сезонността, е необходимо да се вземе решение за модела, който ще се използва (смесен или добавка). След като тенденцията и сезонността бъдат оценени, ние можем да прогнозираме.

Методите, разгледани в тази бележка, имат описателен характер, така че преценката и познаването на явлението играят важна роля при избора на модел.

Класическите методи имат недостатъка, че те се адаптират с течение на времето, което означава, че процесът на оценяване трябва да започне отново с оглед на познаването на нови данни.

Екип, състоящ се от:

Инж. Херардо Валдес Фуентес

Инж. Роза Исела Мелендес Лопес

Лице Хосе Луис Чавес Давила

Инж. Ренато Елмер Васкес Гарсия

Магистър по администрация и лидерство.

Североизточен автономен университет.

Библиография:

Статистика за администраторите, Ричард И. Левин и Дейвид С. Рубин.

Редакционна зала Prentice

Автоматизиране на операциите с minitab за времеви серии