Зависает Domino, не знаю куда копать.

Тема в разделе "Lotus - Администрирование", создана пользователем HardSign1, 1 июн 2010.

  1. HardSign1

    HardSign1 Гость

    Lotus Domino R8.5.1 FP3 64-bit
    операционка Windows 2003 SP2 64-bit, все последние фикспаки
    java 20-й апдейт.

    Сервер IBM x3550, 2*процессора Х3560, 8Г оперативной, дисковая подсистема на полке через FC 4G.
    200 пользователей онлайн, 450 всего.
    из сервисов запущены только smtp, http, ldap, ничего другого и особенного нет. Почтовые базы максимум до 6Г.

    В сети есть еще несколько серверов, с которыми идет обмен репликами.

    Сегодня утром начались зависания Domino. Работает 15 минут идеально. Затем залипает windows, в domino остается рабочим только smtp relay (видно из консоли) - все остальное недоступно. Таск менеджер при этом показывает нагрузку на процессоры - 3-5%, оперативной занято 3,55Г из 8, сеть - на 1% :ya_lamo:

    В логах ничего криминального. Так "висит" 20-25 минут, затем "отлипает" на минуту-две. Если за это время дать exit - корректно завершает работу. После запуска та же история.

    В какую сторону копать?

    notes.ini:
    NotesProgram=E:\Lotus\Domino
    Directory=E:\Lotus\Domino\data
    KitType=2
    InstallType=4
    PartitionNumber=1
    ServiceName=Lotus Domino Server (ELotusDominodata)
    FaultRecovery_Build=Release 8.5.1FP3
    Timezone=-2
    DSTLAW=3,-1,1,10,-1,1
    FileDlgDirectory=C:\Documents and Settings\
    SHARED_MAIL=0
    DisableLDAPOnAdmin=0
    Passthru_LogLevel=0
    Console_LogLevel=2
    DDETimeout=10
    NAMEDSTYLE0=03004261736963000000000000000000000000000000000000000000000000000000
    0000000001010100000A0000000000000100A0050A0000006400A0050A0000000000000000000000
    0
    00000000000000000000000000000000000000000000000000000000000000000009404000000000
    0
    00
    NAMEDSTYLE0_FACE=Default Sans Serif
    NAMEDSTYLE1=030042756C6C65740000000000000000000000000000000000000000000000000000
    0000000001010100000A000000000000000008070A000000640008070A0000000000000000000000
    0
    00000000000000000000000000000000000000000000000000000000000000000049404000000000
    0
    00
    NAMEDSTYLE1_FACE=Default Sans Serif
    NAMEDSTYLE2=0300486561646C696E65000000000000000000000000000000000000000000000000
    00000000010101010B0C0000000000000100A0050A0000006400A0050A0000000000000000000000
    0
    00000000000000000000000000000000000000000000000000000000000000000009404000000000
    0
    00
    NAMEDSTYLE2_FACE=Default Sans Serif
    DefaultMailTemplate=mail85.ntf
    Preferences=32
    ServerTasks=Replica,Router,Update,AMgr,Adminp,Sched,CalConn,RnRMgr,HTTP,LDAP,SMT
    P,POP3
    ServerTasksAt1=Catalog,Design
    ServerTasksAt2=UpdAll
    ServerTasksAt5=Statlog
    TCPIP=TCP,0,15,0,,12288,
    DST=1
    MailType=0
    $$HasLANPort=1
    Ports=TCPIP,TCPIP1
    LOG_REPLICATION=1
    LOG_SESSIONS=1
    FirstServerInDomain=1
    ServerKeyFileName=mail.id
    TemplateSetup=850101
    Setup=850100
    ServerSetup=850101
    NAMELOOKUP_TRUST_DIRCAT=0
    PhoneLog=2
    Log=log.nsf, 1, 0, 7, 40000
    CleanSetup=1
    ServerName=
    ServerNameNative=
    DAOSDeferredDeleteInterval=30
    DAOSBasePath=DAOS
    DAOSMinObjSize=4096
    DAOSEnable=0
    DB2QUERYVIEWROWLIMIT=500
    DB2_PW_EXP_ALARM_DAYS_PRIOR=15
    DB2_DBS_PER_SCHEMA=10
    FormulaTimeout=90
    NSF_QUOTA_METHOD=2
    TRANSLOG_AutoFixup=1
    TRANSLOG_UseAll=0
    TRANSLOG_Style=0
    TRANSLOG_Performance=2
    TRANSLOG_Status=0
    CRASH_REMOVE_DATA=0
    CRASH_MSGSIZE_MB=20
    CRASH_NSDSIZE_MB=10
    CRASH_LOGFILE_KB=10240
    FILE_RETENTION_DAYS=365
    ServerController=0
    MTEnabled=0
    SCHEDULE_DB_BOSS=1
    SCHEDULE_VERSION=4
    SCHEDULE_VERSION_MINOR=10
    HTTPJVMMaxHeapSize=128M
    CLEANUP_EVENTS4_ON_FIRST_NIGHT=0
    WebAdminSetup=850
    DominoConfigLevel=1
    EventSetup=850102
    DELETE_DUPLICATE_PUID_NOTES=0
    DDMSetup=850101
    LAST_DOMINO_TIME=005B61D1C2257735
    CONSOLE_Mail/Allianz/UA=80 300 7 69 -9 737 730
    CATALOG_UPDATED_BY_BUILD=510
    CLEANUP_EVENTS4_DDMFILTERS_VIEW=0
    CLEANUP_EVENTS4_DDMCONFIG_VIEW=0
    CLEANUP_EVENTS4_METHODS_VIEW=0
    CLEANUP_EVENTS4_STATS_VIEW=0
    CLEANUP_EVENTS4_MESSAGES_VIEW=0
    ServerRestarted=0
    ADMINP_LAST_SAVED_POLICY_TIME=17.05.2010 11:41:45
    ADMINP_LAST_SAVED_USER_TIME=18.05.2010 11:09:00
    ADMINP_LAST_SAVED_DIRECTORY_TIME=18.05.2010 11:07:57
    FaultRecovery=0
    SERVER_CLUSTER_ON=1
    Server_Cluster_Default_Port=TCPIP1
    TCPIP_TcpConnectTimeout=0,10
    TCPIP1_TcpConnectTimeout=0,10
    TCPIP1=TCP,0,15,0,,12288,
    ADMINP_SKIP_ARCHIVE_ERRORS=1
    LDAPDEBUG=1
    converter_log_level=10
    PortOrder=TCPIP,TCPIP1
    EVENT_POOL_SIZE=4096000

    Server_Pool_Tasks=60
    Server_Max_Concurrent_Trans=30
    RouterDbCacheSize=5000
    Schedule_No_Validate=1
    NSF_DBcache_Maxentries=4000
    Debug_NSF_Show_Allstats=0
    Create_R85_Databases=1
    Debug_NSF_Compress_All_Notes=1
    Create_R85_Log=1
    Enable_LZ1_Encrypted_Notes=1
    NSF_Buffer_Pool_Size_MB=100
    DAOS_LOAD=0
    CFP_LP_PREV=Release 8.5.1|September 28, 2009
    CFP_LP_BASE_VERSION=Release 8.5.1|September 28, 2009
    CFP_LP_CURRENT=Release 8.5.1FP3|May 23, 2010
    DAOSCatalogState=2
    JrnlEnbld=0
     
  2. ToxaRat

    ToxaRat Чёрный маг
    Lotus team

    Регистрация:
    6 ноя 2007
    Сообщения:
    3.047
    Симпатии:
    18
    ты че издеваешься???

    Добавлено:
    подняться ты ему тоже не даешь, прямо давишь на горло безжалостно :ya_lamo:

    чтобы я еще туда забил исходя из твоей конфигурации
    DAOS_Encrypt_NLO=0
    SERVER_MAXSESSIONS=450
    SERVER_SESSION_TIMEOUT=30
    UPDATERS=2
     
  3. Мыш

    Мыш Lotus team
    Lotus team

    Регистрация:
    12 фев 2008
    Сообщения:
    1.021
    Симпатии:
    8
    Как именно "залипает"? Не реагирует на клавиатуру и мышь? А другие сетевые сервисы на сервере при этом доступны? Скажем, если попробовать открыть расшаренную на сервере папку?

    Свежак однако! Не после апгрейда ли проблемы начались?

    У Вас кластер имеется? А как 2-й узел себя ведет?


    Сомнительные параметры, я бы попробовал их убрать - тем более, с учетом FP3,,,

    И еще - антивирусы, фаерволлы на сервере имеются?
     
  4. Akupaka

    Akupaka А че я?.. О.о

    Регистрация:
    4 окт 2007
    Сообщения:
    3.373
    Симпатии:
    2
    Тоха, ты либо отвечай на вопрос, либо держи при себе. Пространственные вопросы на вопросы тут ни к чему.
    Извините за офтоп.
     
  5. HardSign1

    HardSign1 Гость

    поставил
    NSF_Buffer_Pool_Size_MB=1024

    добавил
    DAOS_Encrypt_NLO=0
    SERVER_MAXSESSIONS=600
    SERVER_SESSION_TIMEOUT=30
    UPDATERS=2

    Виндоус залипает = не реагирует на клавиатуру и мышь, пропадает панель задач, чернит экран нулевой консоли. Но если было открыто еще какое-то виндовое приложение с грехом пополам оно доступно (к примеру, с задержкой 3-5 секунд идет переход между закладками в таск менеджере). Сетевые сервисы недоступны - шара не открывается.

    Антивирус есть, касперский. Лотус добавлен в исключения - файловая проверка, и сетевая проверка всех сервисов Domino. При отключении антивируса картина та же. Файрволл тоже отключен.

    Началось все вчера утром, когда версия Domino была 8.5. Обновился до 8.5.1 FP3, не помогло.

    Эти параметры добавлял, прочитав статью http://www.ibm.com/developerworks/lotus/li...85-performance/
    Debug_NSF_Compress_All_Notes=1
    Enable_LZ1_Encrypted_Notes=1

    Кластер есть, но на него нагрузка небольшая - нет многих реплик, юзера туда еще почти не ходят:) Но ведет себя нормально, notes.ini там такой же, конфигурация сервера такая же, подключен к той же дисковой полке (но на другой контроллер).

    Добавлено: Да, еще. Даже с 8.5.1 есть проблема с выделением памяти (выжирает консолью Domino). При сворачивании-разворачивании консоли память очищается. Поставил ConsoleWindowMemRelease, на каждые 60 секунд - с выделением памяти теперь проблем нет.

    На втором сервере кластера Domino запускается без консоли (запретил взаимодействие с рабочим столом).
     
  6. Мыш

    Мыш Lotus team
    Lotus team

    Регистрация:
    12 фев 2008
    Сообщения:
    1.021
    Симпатии:
    8
    И как после изменения NSF_Buffer_Pool_Size_MB - работает? Кстати, этот параметр можно и совсем убрать (хотя бы временно)...
    А в виндовых логах никаких ошибок нет? Я бы еще добавил в Task Manager колонок (Handle count, Thread count и т.д.) и посмотрел, как они меняются... Теоретически возможна утечка хэндлов или, скажем, non-paged памяти.
    Из личного отпыта - имею сильное подозрение, что отключить его полностью невозможно :) Спросите: "Почему раньше работал"? Потому, что пришли какие-то хреновые обновления (с таким тоже сталкивался).
    Можно попробовать их временно убрать - на всякий случай. Они ведь явно не жизненно необходимы..
    Я так понял, у Вас еще установлена Sun'овская (ой, простите, Oracl'овая :) Java? Опять же, из личного опыта - она большой любитель вешать серверы.
    ЗЫ. По железу - кулеры все нормально крутятся? Может, есть ошибки на сетевом интерфейсе (не знаю, как в Виндах их посмотреть)?
     
  7. HardSign1

    HardSign1 Гость

    В виндовых логах ошибок нет:) В таск менеджер добавлял колонки - сервисы Domino дают довольно много ошибок страниц, + забивают своп. К примеру, nserver.exe сейач дает где-то 800 000 ошибок страниц, а набил 500Мб свопа (хотя оперативная сейчас свободна).

    Также запустил perfmon, собрал статистику - процессор\память свободны, а такие параметры как средняя скорость записи\чтения диск, средняя очередь записи на диск = зашкаливают до 100% постоянно. Уже видно, что лочит сервер дисковая подсистема. Там FC 4G с RAID5 из 6-ти дисков SAS + HS, 15000rpm.

    Антивирус файловый, не для Lotus. Отключал даже службу, перезагружался - картина та же.
    После смены параметров (пока что) полет нормальный, но perfmon все равно показывает до 100% загрузку дисковой подсистемы. На мой взгляд, с таким количеством пользователей (сейчас около 80 коннектов) - это явно ненормально.
     
  8. Мыш

    Мыш Lotus team
    Lotus team

    Регистрация:
    12 фев 2008
    Сообщения:
    1.021
    Симпатии:
    8
    Для сравнения - у меня 4Gb оперативки, занято ~ 2Gb, 300 пользователей, ошибок памяти ~ 1 100 000, при этом своп - 64Mb.
    Может, проблемы с FC? Мышки кабель погрызли? :)
     
  9. HardSign1

    HardSign1 Гость

    Не исключаю проблемы с полкой. Сейчас смотрю логи, полка жалуется на процессор управляющего контроллера. Но таких процессоров там два (работают в резерве), и второй сервер кластера подключен туда же - явных проблем не наблюдается.
     
  10. HardSign1

    HardSign1 Гость

    Да, после изменения параметров зависания прекратились. Также, судя по всему, накрылся управляющий процессор полки, из-за этого отключен кеш на контроллере, и, соответственно, стала совсем другой производительность дисковой подсистемы.

    Помог NSF_Buffer_Pool_Size_MB, очередь теперь сидит в памяти и пишется на "хромающую" полку при простоях. Кстати, нет ли смысла увеличить параметр до 2048? Оперативной вроде хватает....

    Спасибо огромное всем за помощь и консультации!!
     
  11. Akupaka

    Akupaka А че я?.. О.о

    Регистрация:
    4 окт 2007
    Сообщения:
    3.373
    Симпатии:
    2
  12. ToxaRat

    ToxaRat Чёрный маг
    Lotus team

    Регистрация:
    6 ноя 2007
    Сообщения:
    3.047
    Симпатии:
    18
    о теперь ты понял почему я сказал что "издеваешься" :)
    для 450 пользоваетелей и такой характеристике сервера пул в 100 метров это самое узкое горлышко
    ИБМ рекомендует от 1/8 до 3/8 от ОЗУ
    Твой гиг это как раз 1/8
    Однако это нижний порог
    Теперь тебе нужно правильно затюнинговать SERVER_TRANSINFO_RANGE
    У меня таже винда, тот же фикс, проблем с FP3 пока не выявил, правда я дисковую до одного винта сократил, дабы проверять их "оптимизацию"
     
  13. Akupaka

    Akupaka А че я?.. О.о

    Регистрация:
    4 окт 2007
    Сообщения:
    3.373
    Симпатии:
    2
    Немного не так, это раньше рассчитывалось как 3/8 от установленного ОЗУ. Теперь они для винды (32б) рекомендуют 500-750 МБ.
    Но этот параметр необходимо подбирать для конкретной системы и задач.
     
  14. ToxaRat

    ToxaRat Чёрный маг
    Lotus team

    Регистрация:
    6 ноя 2007
    Сообщения:
    3.047
    Симпатии:
    18
    Akupaka
    вот этот момент я и проверяю, ведь ИБМ заявила что на 30% сократили обращения И/О, чего бы тогда не подбить дисковую наподобие контрольного сервера но только послабее ровно на 30% и проверить одинаковы ли они теперь.... однако пул вот в этой ситуации и решает всё и его так просто не подбить :)
     
  15. HardSign1

    HardSign1 Гость

    Нашел проблему с дисковой полкой - из-за неверного подключения был отключен кеш. Включил. Прошел час, полет нормальный, я сообщил всем что уже все ОК, и тут этот гад виснет на 10 минут с теми же симптомами.

    Вот теперь действительно - совсем не знаю куда копать:)
     
  16. Alexander (Criz)

    Alexander (Criz) Гость

    Были такие же проблемы с полкой SATA перевёз всё на SCSI уже год полёт нормальный...
     
  17. HardSign1

    HardSign1 Гость

    Спасибо, но переводить дисковую подсистему с Serial Attached SCSI на паралелльный SCSI будет вряд ли удачной идеей;)
     
  18. jinx

    jinx Member

    Регистрация:
    9 окт 2009
    Сообщения:
    8
    Симпатии:
    0
Загрузка...
Похожие Темы - Зависает Domino не
  1. Bob84
    Ответов:
    4
    Просмотров:
    1.123
  2. XiNoID
    Ответов:
    13
    Просмотров:
    3.052
  3. k85
    Ответов:
    11
    Просмотров:
    2.338
  4. Sangitam
    Ответов:
    2
    Просмотров:
    1.891
  5. makaset
    Ответов:
    4
    Просмотров:
    2.613

Поделиться этой страницей